Z-Image Turbo とは?なぜ注目されているのか

Is Flux Too Slow for You Meet Z-Image-Turbo

Z-Image Turbo(別名:Tongyi-MAI Z-Image)は、AlibabaのAI研究部門が開発したテキスト・トゥ・イメージ(Text-to-Image)モデルです。

主な特徴

  1. 圧倒的な生成速度: 蒸留(Distilled)モデルであるため、通常20〜30ステップ必要な生成が、わずか8ステップで完了します。
  2. バイリンガル対応: 英語だけでなく、中国語(漢字)のテキスト描画に優れています。これは看板やポスターの生成において、既存モデル(FLUXなど)よりも漢字の再現性が高いことを意味します。
  3. 軽量設計: 60億(6B)パラメータと比較的軽量で、VRAM 16GB程度のコンシューマー向けGPUでも快適に動作します。
  4. フォトリアリスティック: 高速でありながら、写真のようなリアルな質感を維持しています。

🛠️ 導入準備:必要なファイルのダウンロードと配置

Z-Image TurboをComfyUIで動かすには、従来のチェックポイント(1つの巨大なファイル)ではなく、モデル、テキストエンコーダー、VAEの3つを個別に配置する必要があります。

手順 1: モデルファイルのダウンロード

以下のHugging Faceリポジトリから3つのファイルをダウンロードしてください。

🔗 ダウンロード元: Hugging Face: Comfy-Org/z_image_turbo

  1. 拡散モデル (Diffusion Model)
    • ファイル名: z_image_turbo_bf16.safetensors
  2. テキストエンコーダー (Text Encoder)
    • ファイル名: qwen_3_4b.safetensors
  3. VAE
    • ファイル名: ae.safetensors

手順 2: ComfyUIフォルダへの配置

ダウンロードしたファイルを、ComfyUIのインストールフォルダ内の以下の場所に配置します。フォルダがない場合は新規作成してください。

  • ComfyUI/models/diffusion_models/ ➡️ z_image_turbo_bf16.safetensors
  • ComfyUI/models/text_encoders/ ➡️ qwen_3_4b.safetensors
  • ComfyUI/models/vae/ ➡️ ae.safetensors

💡 Pro Tip: 最近のComfyUIアップデートで diffusion_models フォルダが推奨されるようになりました。従来の unet フォルダでも認識される場合がありますが、公式例に従うのが無難です。


🖥️ ComfyUI ワークフローの構築

ComfyUIを起動し、以下の手順でワークフローを読み込みます。

最も簡単な方法:公式画像をドラッグ&ドロップ

公式のサンプルページにある画像を保存し、ComfyUIの画面にドラッグ&ドロップするだけで、ワークフローが自動構築されます。

  • 参照URL: ComfyUI Examples: Z-Image
  • ページ内の女性の画像を保存(または画像を直接ComfyUIタブへドラッグ)してください。

手動設定のポイント(カスタム構築する場合)

もし手動でノードを組む場合は、以下の設定を確認してください。

  1. Load Diffusion Model ノード: z_image_turbo_bf16.safetensors を選択。
  2. Load CLIP ノード: qwen_3_4b.safetensors を選択(タイプは z-image-clip 等が自動認識されるはずです)。
  3. Load VAE ノード: ae.safetensors を選択。
  4. KSampler 設定:
    • Steps: 8 (これ以上増やしても劇的には変わりません)
    • CFG: 1.0 (蒸留モデルのため、1.0推奨)
    • Sampler Name: euler
    • Scheduler: simple

📋 The Prompt: バイリンガル能力を試す

Z-Image Turboの真骨頂である「テキスト描画」と「フォトリアル」を試すプロンプトです。

以下をマークダウンのコードブロックとしてコピーし、ComfyUIのCLIP Text Encode (Positive) に貼り付けてください。

photo of a cyberpunk street market at night, neon lights reflecting on wet pavement,
a glowing neon sign with the text "未来都市" hanging above a food stall,
detailed cinematic lighting, 8k resolution, photorealistic, depth of field

なぜこのプロンプトなのか?

  • “未来都市”: 漢字を含めることで、Z-Image Turboのバイリンガルテキスト描画能力をテストします(多くの海外モデルは漢字が苦手です)。
  • “Cyberpunk/Neon”: 光の処理や反射など、フォトリアリスティックな表現力を確認します。

⚠️ トラブルシューティングと注意点

Q. エラーが出て動きません。

  • A. ComfyUI本体を最新版にアップデートしましたか? Z-Image Turboは新しいアーキテクチャ(S3-DiT)を使用しているため、古いComfyUIではノードが対応していません。「ComfyUI Manager」から “Update ComfyUI” を実行してください。

Q. 生成された画像が崩れます。

  • A. ファイルの配置場所は正しいですか? 特に text_encodersqwen_3_4b が入っていないと、プロンプトが正しく解釈されず、ノイズのような画像になります。また、VAEが正しくロードされているかも確認してください。

Q. 漢字が出ません。

  • A. プロンプト内でテキストを指定する際は、ダブルクォーテーション "" で囲むのが有効です。また、複雑すぎる漢字はまだ完璧ではない場合があります。

Z-Image Turboは、**「FLUXのような高品質」「SDXL Turboのような高速性」**を兼ね備えた、次世代のスタンダードになり得るモデルです。特にアジア圏のユーザーにとっては、漢字を含むデザインが破綻しにくい点は大きなメリットと言えるでしょう。

ComfyUI環境さえあれば無料で試せるので、ぜひこの爆速体験を味わってみてください!

👉 今すぐ試す: ComfyUI Z-Image Examples