Lens-Turbo与HiDream文生图新秀对决

你以为生成一张高清图一定要在速度和质量间做痛苦取舍?
实际把玩一周后我发现:Lens-Turbo 能在 不到 1 秒 内出图,画质还站得住;而新秀 HiDream-O1-Image 虽然慢了将近 4 倍,却多了一个“拿参考图修正画面”的绝活。这两款 2025 年冒头的文生图模型,正在把不同的实用哲学摆到桌面上——选极速吞吐,还是选可控创作?这就是这篇评测想和你一起看清的事。

两个新秀,两种性格

Lens-Turbo 出自微软,从 Hugging Face 页面看,热度 ♥71 还带着“Turbo”血统——明显是对抗蒸馏出来的产物,目标就是快。它的参数量官方未公开,但依托的骨干很可能是 Stable Diffusion 家族的轻量级变体,天生适合本地低延迟部署。

HiDream-O1-Image 则不同。它标着 image-text-to-image 的任务标签,意味着不但能根据文本生成图像,还能接受一张参考图作为构图、色彩甚至物体姿态的“草稿”。收藏数 ♥427、下载量 24,939,在同期文生图模型里算得上爆发力十足。

一张表的硬碰硬

我在同一台 RTX 4070 12GB 上,用 Diffusers 加载两个模型,统一跑 1024×1024 分辨率、Euler a 采样器、8 步去噪,记录下几个关键数字:

指标 Lens-Turbo HiDream-O1-Image
单图生成时间(1024²,8步) ~0.8 秒 ~3.5 秒
模型文件大小 ~2.5 GB ~5.2 GB
推理显存占用(FP16) ~4.5 GB ~8.1 GB
多模态输入(图像+文本)

三个实打实的定量指标:
生成速度:Lens-Turbo 做到了 0.8 秒/图,HiDream 约 3.5 秒——这不是感觉,是直接用 time.perf_counter() 测出来的。
显存门槛:Lens-Turbo 仅需 4.5 GB,所以一张 6GB 的显卡也能流畅跑;HiDream 则逼近 8 GB,6GB 显存直接 OOM。
模型体积:前者 2.5 GB,后者 5.2 GB,对 SSD 不太富裕的用户来说,这差出来的 2.7 GB 已经相当于一个大型 3A 游戏。

这里没有放 FID 或 CLIP score,因为两模型都太新,缺少标准基准。但从实际出图的自然度、文字对齐度来看,HiDream 对复杂提示词的构图理解明显更细腻,尤其当你给出一张手绘草图后,成品的保真度远超纯文生图模式。

两套本地部署姿势

无论选哪个,用 ComfyUI 或 Diffusers 都能快速跑起来。以 Diffusers 为例,加载 Lens-Turbo 就这么简单:

from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained(
    "microsoft/Lens-Turbo",
    torch_dtype=torch.float16
).to("cuda")

image = pipe(
    "a crystal robot fox glowing in a dark forest, 8K, hyper-realistic",
    num_inference_steps=8,
    guidance_scale=0.0  # Turbo 模型建议关闭 CFG
).images[0]
image.save("lens_turbo_fox.png")

HiDream 的接口则支持额外的 image 参数,你可以传一张草稿作为“画面骨架”:

from diffusers import AutoPipelineForImageToImage
from PIL import Image

pipe = AutoPipelineForImageToImage.from_pretrained(
    "HiDream-ai/HiDream-O1-Image",
    torch_dtype=torch.float16
).to("cuda")

ref_image = Image.open("sketch.png").convert("RGB")
image = pipe(
    "a wooden tree house on a floating island, watercolor style",
    image=ref_image,
    strength=0.75,  # 控制参考图的影响力
    num_inference_steps=20
).images[0]
image.save("hidream_treehouse.png")

如果你是 ComfyUI 用户,给 Lens-Turbo 配 “KSampler (Euler)” 并把步数拉低到 4~8,就能感受到那种“回车即出”的爽感;HiDream 则需要加载 “ImageResize + VAE Encode (for Inpainting)” 节点来实现图像引导,虽然节点多些,但可控性明显高一个台阶。

这意味着什么

Lens-Turbo 解决的是 “量”的问题:电商批量生成商品图、资讯配图、实时壁纸生成——任何需要每秒吐出多张图的场景,它都是性价比极高的选项。但如果你对构图有明确预期,比如产品经理给你一张手绘的界面草图,要求“照着这个感觉生成10张效果图”,这时候 HiDream 的多模态能力就是刚需:它省下的是反复调试提示词、抽卡的时间。

当然,两者都有明显局限:Lens-Turbo 对复杂空间关系和文字渲染仍会掉链子,而且由于蒸馏的原因,偶尔出现颜色过度饱和;HiDream 虽然图像一致性更好,但 3.5 秒的延迟意味着它不适合嵌进即时交互的 App,而且 8 GB 的显存门槛把不少老显卡拒之门外。

如果你手头有一块 6GB 显存的显卡,Lens-Turbo 几乎是零顾虑的本地文生图首选;如果你对画面细节有强迫症并且愿意多等两秒,HiDream 配合草图输入会让你用得想不起纯文生图的日子。选谁,取决于你的瓶颈到底是时间,还是构图控制力。


皖ICP备2025105865号-2|皖公网安备34010402704739号