최고의 속도와 텍스트 렌더링 능력을 갖춘 새로운 오픈소스 모델을 소개합니다.
생성형 AI의 속도 경쟁이 치열해지는 가운데, 알리바바의 Tongyi-MAI 팀이 놀라운 모델을 공개했습니다. 바로 Z-Image-Turbo입니다. 이 모델은 단 8단계(8 steps) 만에 고품질 이미지를 생성하며, 특히 이미지 내 텍스트(영어 및 한자) 표현력이 뛰어난 것이 특징입니다.
오늘은 이 혁신적인 모델의 주요 특징과 ComfyUI에서 바로 사용하는 방법을 단계별로 알아보겠습니다.
🚀 Z-Image-Turbo, 무엇이 특별한가요?
1. 압도적인 속도 (8 Steps)
기존의 고화질 모델(Flux 등)이 보통 20~30단계를 필요로 했다면, Z-Image-Turbo는 단 8번의 연산(NFE) 만으로 포토리얼리스틱한 이미지를 완성합니다. 기업용 GPU(H800)에서는 1초 미만, 일반 소비자용 고성능 GPU(16GB VRAM 권장)에서도 매우 쾌적한 속도를 보여줍니다.
2. 뛰어난 텍스트 렌더링 (Bilingual)
대부분의 이미지 생성 모델이 텍스트 묘사에 약점이 있는 반면, 이 모델은 영어와 중국어 텍스트를 이미지 내에 정확하게 그려내는 능력이 탁월합니다. (한글 텍스트 지원 여부는 아직 미지수이나, 한자 문화권 텍스트 처리에 강점이 있습니다.)
3. 효율적인 구조
단일 스트림(Single-Stream) DiT 아키텍처를 사용하여 파라미터 효율성을 극대화했습니다. 덕분에 무거운 듀얼 스트림 모델보다 가볍게 동작합니다.
🛠️ ComfyUI 설치 및 설정 가이드
가장 간편하게 Z-Image-Turbo를 사용하는 방법은 ComfyUI를 이용하는 것입니다. 아래 순서대로 파일을 다운로드하고 폴더에 넣어주세요.
1단계: 필수 모델 파일 다운로드
Hugging Face 저장소에서 다음 파일들을 다운로드합니다. (파일명이 다를 수 있으니 확인해 주세요)
- Text Encoder (텍스트 인코더)
- 파일명:
qwen_3_4b.safetensors - 위치:
ComfyUI/models/text_encoders/ - 참고: Qwen 3.4B 기반의 강력한 언어 모델을 사용합니다.
- 파일명:
- Diffusion Model (메인 모델)
- 파일명:
z_image_turbo_bf16.safetensors - 위치:
ComfyUI/models/diffusion_models/ - 참고:
bf16버전을 사용해야 성능과 메모리 효율이 좋습니다.
- 파일명:
- VAE (Variational Autoencoder)
- 파일명:
ae.safetensors(Flux 1 VAE) - 위치:
ComfyUI/models/vae/ - 이미 Flux 모델을 사용 중이라면 기존 VAE를 그대로 쓰셔도 됩니다.
- 파일명:
💡 다운로드 링크: Hugging Face 공식 리포지토리 또는 ComfyUI 예제 페이지를 참고하세요.
2단계: 워크플로우 불러오기
복잡한 노드 연결을 직접 할 필요가 없습니다. ComfyUI 공식 예제 이미지를 다운로드하여 ComfyUI 화면에 드래그 앤 드롭(Drag & Drop) 하면 설정이 자동으로 완료됩니다.
- 공식 워크플로우 이미지 다운로드 링크 (링크 접속 후 보이는 예제 이미지를 저장해서 사용하세요)
3단계: 실행 설정 (Pro Tips)
워크플로우가 로드되면 아래 설정값을 확인하세요.
- Steps:
8(이 이상 높여도 품질 차이가 크지 않고 속도만 느려집니다.) - CFG (Guidance Scale):
1.0(Turbo 모델 특성상 낮은 CFG가 권장될 수 있습니다. 보통1.0또는0.0설정이 많으니 결과물을 보며 조정하세요. 공식 문서에는guidance_scale=0.0으로 되어있으나 ComfyUI 노드 설정에 따라 다를 수 있습니다.) - Sampler:
euler또는ddim추천.
📋 추천 프롬프트 (The Prompt)
Z-Image-Turbo의 성능을 테스트해볼 수 있는 프롬프트입니다. 텍스트 묘사 능력을 확인해보세요.
**Positive Prompt:**
Hyper-realistic photo of a neon sign on a rainy street at night.
The sign clearly reads "Z-IMAGE" in bright blue neon lights.
Reflections on the wet asphalt, cyberpunk atmosphere, 8k resolution, cinematic lighting.
**Negative Prompt:**
blur, low quality, distortion, watermark
⚠️ 주의사항 및 팁
- VRAM 요구사항: 16GB VRAM 이상의 GPU(RTX 3090, 4080, 4090 등)에서 가장 원활하게 돌아갑니다. VRAM이 부족하다면 ComfyUI 실행 시
--lowvram옵션을 사용해 보세요. - 한자 텍스트 생성: 프롬프트에 중국어(한자)를 입력하면 놀라울 정도로 정확하게 간판이나 책 표지의 글자를 생성해냅니다. 디자인 시안 작업에 매우 유용합니다.
- 라이선스: Apache 2.0 라이선스를 따르므로 비교적 자유롭게 사용할 수 있습니다.
🏁 마치며
Z-Image-Turbo는 **”속도”와 “정확한 텍스트 묘사”**라는 두 마리 토끼를 잡은 모델입니다. 특히 Flux 모델이 너무 무거워서 부담스러웠거나, 빠르게 시안을 뽑아야 하는 디자이너들에게 강력한 대안이 될 것입니다.
지금 바로 ComfyUI를 켜고, 8단계의 마법을 경험해 보세요!
더 많은 AI 팁과 튜토리얼이 필요하신가요? TipTinker를 즐겨찾기 하세요!
