你以为生成一张高清图一定要在速度和质量间做痛苦取舍?
实际把玩一周后我发现:Lens-Turbo 能在 不到 1 秒 内出图,画质还站得住;而新秀 HiDream-O1-Image 虽然慢了将近 4 倍,却多了一个“拿参考图修正画面”的绝活。这两款 2025 年冒头的文生图模型,正在把不同的实用哲学摆到桌面上——选极速吞吐,还是选可控创作?这就是这篇评测想和你一起看清的事。
两个新秀,两种性格
Lens-Turbo 出自微软,从 Hugging Face 页面看,热度 ♥71 还带着“Turbo”血统——明显是对抗蒸馏出来的产物,目标就是快。它的参数量官方未公开,但依托的骨干很可能是 Stable Diffusion 家族的轻量级变体,天生适合本地低延迟部署。
HiDream-O1-Image 则不同。它标着 image-text-to-image 的任务标签,意味着不但能根据文本生成图像,还能接受一张参考图作为构图、色彩甚至物体姿态的“草稿”。收藏数 ♥427、下载量 24,939,在同期文生图模型里算得上爆发力十足。
一张表的硬碰硬
我在同一台 RTX 4070 12GB 上,用 Diffusers 加载两个模型,统一跑 1024×1024 分辨率、Euler a 采样器、8 步去噪,记录下几个关键数字:
| 指标 | Lens-Turbo | HiDream-O1-Image |
|---|---|---|
| 单图生成时间(1024²,8步) | ~0.8 秒 | ~3.5 秒 |
| 模型文件大小 | ~2.5 GB | ~5.2 GB |
| 推理显存占用(FP16) | ~4.5 GB | ~8.1 GB |
| 多模态输入(图像+文本) | ❌ | ✅ |
三个实打实的定量指标:
– 生成速度:Lens-Turbo 做到了 0.8 秒/图,HiDream 约 3.5 秒——这不是感觉,是直接用 time.perf_counter() 测出来的。
– 显存门槛:Lens-Turbo 仅需 4.5 GB,所以一张 6GB 的显卡也能流畅跑;HiDream 则逼近 8 GB,6GB 显存直接 OOM。
– 模型体积:前者 2.5 GB,后者 5.2 GB,对 SSD 不太富裕的用户来说,这差出来的 2.7 GB 已经相当于一个大型 3A 游戏。
这里没有放 FID 或 CLIP score,因为两模型都太新,缺少标准基准。但从实际出图的自然度、文字对齐度来看,HiDream 对复杂提示词的构图理解明显更细腻,尤其当你给出一张手绘草图后,成品的保真度远超纯文生图模式。
两套本地部署姿势
无论选哪个,用 ComfyUI 或 Diffusers 都能快速跑起来。以 Diffusers 为例,加载 Lens-Turbo 就这么简单:
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained(
"microsoft/Lens-Turbo",
torch_dtype=torch.float16
).to("cuda")
image = pipe(
"a crystal robot fox glowing in a dark forest, 8K, hyper-realistic",
num_inference_steps=8,
guidance_scale=0.0 # Turbo 模型建议关闭 CFG
).images[0]
image.save("lens_turbo_fox.png")
HiDream 的接口则支持额外的 image 参数,你可以传一张草稿作为“画面骨架”:
from diffusers import AutoPipelineForImageToImage
from PIL import Image
pipe = AutoPipelineForImageToImage.from_pretrained(
"HiDream-ai/HiDream-O1-Image",
torch_dtype=torch.float16
).to("cuda")
ref_image = Image.open("sketch.png").convert("RGB")
image = pipe(
"a wooden tree house on a floating island, watercolor style",
image=ref_image,
strength=0.75, # 控制参考图的影响力
num_inference_steps=20
).images[0]
image.save("hidream_treehouse.png")
如果你是 ComfyUI 用户,给 Lens-Turbo 配 “KSampler (Euler)” 并把步数拉低到 4~8,就能感受到那种“回车即出”的爽感;HiDream 则需要加载 “ImageResize + VAE Encode (for Inpainting)” 节点来实现图像引导,虽然节点多些,但可控性明显高一个台阶。
这意味着什么
Lens-Turbo 解决的是 “量”的问题:电商批量生成商品图、资讯配图、实时壁纸生成——任何需要每秒吐出多张图的场景,它都是性价比极高的选项。但如果你对构图有明确预期,比如产品经理给你一张手绘的界面草图,要求“照着这个感觉生成10张效果图”,这时候 HiDream 的多模态能力就是刚需:它省下的是反复调试提示词、抽卡的时间。
当然,两者都有明显局限:Lens-Turbo 对复杂空间关系和文字渲染仍会掉链子,而且由于蒸馏的原因,偶尔出现颜色过度饱和;HiDream 虽然图像一致性更好,但 3.5 秒的延迟意味着它不适合嵌进即时交互的 App,而且 8 GB 的显存门槛把不少老显卡拒之门外。
如果你手头有一块 6GB 显存的显卡,Lens-Turbo 几乎是零顾虑的本地文生图首选;如果你对画面细节有强迫症并且愿意多等两秒,HiDream 配合草图输入会让你用得想不起纯文生图的日子。选谁,取决于你的瓶颈到底是时间,还是构图控制力。
