ComfyUI 新宠?Z-Image-Turbo:8步极速生成、中英双语完美支持的国产之光

Is Flux Too Slow for You Meet Z-Image-Turbo

在 AI 绘画界,我们习惯了为了追求高质量画质而忍受漫长的渲染时间(看着 Flux 的进度条一点点挪动)。但如果我告诉你,有一个模型既能达到照片级的逼真度,又能精准渲染中文汉字,而且只需要 8 步(甚至不到 1 秒)就能出图,你会心动吗?

这就是 Z-Image-Turbo

Tongyi-MAI(通义-蚂蚁联合团队)开源,这个 60 亿参数(6B)的模型采用了先进的蒸馏技术,不仅在速度上吊打传统模型,更解决了长期以来困扰社区的痛点——如何在图里写对中国字

今天,TipTinker 将带你深入了解 Z-Image-Turbo,并手把手教你在 ComfyUI 中部署这个“速度与质量并存”的怪兽。


💡 为什么 Z-Image-Turbo 这么强?

8步极速推理 (8-Step Inference)

传统的 Diffusion 模型往往需要 20-50 步才能生成清晰图像。Z-Image-Turbo 使用了 Decoupled-DMD(解耦分布匹配蒸馏)技术,将推理步数压缩到了惊人的 8 步

  • 这意味着什么? 在企业级 H800 显卡上,它能实现亚秒级出图。在消费级显卡(如 RTX 3090/4090)上,也是“眨眼即现”。

原生中文理解 (Native Bilingual Support)

大多数开源模型(如 SDXL, Flux)的文本编码器对中文理解很差。Z-Image-Turbo 搭载了强大的 Qwen 3.4B 作为文本编码器。

  • 优势:你可以直接用中文写 Prompt,或者要求它在画面中绘制准确的汉字(如“西安大雁塔”匾额、霓虹灯汉字等),它都能精准还原,不再是“鬼画符”。

低显存门槛

虽然拥有 6B 参数,但经过优化,它可以在 16GB VRAM 的显卡上流畅运行。对于 ComfyUI 用户来说,这意味着不需要 H100 也能玩转顶级模型。


📋 中英混合的魅力

Z-Image-Turbo 最令人惊叹的是它处理复杂指令的能力。看看下面这个官方提供的测试 Prompt,它混合了复杂的服饰描述和光影要求:

Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights.

解析:

  • 实体 (Entities): 红色汉服 (Red Hanfu), 凤凰头饰 (Golden phoenix headdress).
  • 难点 (Challenges): 霓虹闪电灯 (Neon lightning-bolt lamp), 特定地标 (西安大雁塔).
  • 结果: 模型能精准生成背景中的大雁塔轮廓,并正确处理手持道具的光影。

🛠️ 如何在 ComfyUI 中使用 Z-Image-Turbo

要在 ComfyUI 中运行 Z-Image,你需要下载三个关键文件并放入正确的位置。

第一步:下载模型文件

请访问 Hugging Face 或相关镜像站下载以下文件:

  1. Diffusion 模型 (主体):
    • 文件名: z_image_turbo_bf16.safetensors
    • 存放位置: ComfyUI/models/diffusion_models/
    • 注意:这是核心生成模型。
  2. Text Encoder (文本编码器):
    • 文件名: qwen_3_4b.safetensors
    • 存放位置: ComfyUI/models/text_encoders/
    • 注意:这是它听懂中文的关键,基于 Qwen 架构。
  3. VAE (变分自编码器):
    • 文件名: ae.safetensors (其实就是 Flux 1 VAE)
    • 存放位置: ComfyUI/models/vae/
    • 注意:如果你已经有了 Flux 的 VAE,可以直接复用,无需重复下载。

第二步:搭建工作流 (Workflow)

ComfyUI 官方示例仓库已经更新了 Z-Image 的支持。

  1. 更新 ComfyUI: 确保你的 ComfyUI 是最新版本,因为 Z-Image 需要最新的节点支持。
  2. 加载工作流:
    • 你可以直接拖拽包含 Z-Image 元数据的图片进入 ComfyUI 界面。
    • 或者手动搭建:
      • Load Diffusion Model: 选择 z_image_turbo_bf16.safetensors
      • Load CLIP: 选择 qwen_3_4b.safetensors (注意这里是用 CLIP Loader 加载 Qwen 模型)
      • Load VAE: 选择 ae.safetensors
      • Sampler: 设置 Steps 为 8,CFG (Guidance Scale) 设置为 1.0 或更低(Turbo 模型通常不需要高 CFG)。注:官方建议 guidance_scale 设为 0,但在 ComfyUI 采样器中通常对应 CFG 1.0。

⚠️ 避坑指南

  1. Guidance Scale (CFG) 设置: 对于 Turbo 类蒸馏模型,不要设置很高的 CFG。在代码中官方推荐 guidance_scale=0.0。在 ComfyUI 的标准采样器中,这通常意味着你应该将 CFG 设置为 1.0。设置过高会导致画面烧毁或出现伪影。
  2. 显存优化: 如果你是 16GB 以下显存的用户,可以通过启用 --lowvram 启动参数来尝试运行,但可能会牺牲一些速度。推荐使用 bf16 版本以获得最佳的性能/显存平衡。
  3. 采样器选择: 推荐使用 euler_ancestraldpmpp_2m_sde 等适合少步数生成的采样器。
  4. 中文 Prompt: 虽然它支持英文,但强烈建议尝试加入中文描述词,特别是涉及到中国文化元素(如“青花瓷”、“水墨画风格”)时,Qwen 文本编码器的理解能力会给你惊喜。

🎯 结语

Z-Image-Turbo 的出现不仅仅是多了一个模型选择,它代表了开源 AI 绘画的一个新趋势:更小、更快、更懂本土文化。对于需要批量生成素材、或者对中式元素有高要求的创作者来说,这绝对是一个必须收藏的工具。

现在就行动:下载模型,打开 ComfyUI,输入一句中文 Prompt,体验一下“秒出大片”的快感吧!