오픈소스 AI의 지형이 지각변동을 일으켰습니다. 블랙 포레스트 랩(Black Forest Labs)의 FLUX.2-dev 출시로 , 커뮤니티는 단순한 텍스트 이미지 생성 단계를 넘어 추론 기반 시각적 합성 시대로 진입했습니다 .
FLUX.1에서 캐릭터의 얼굴이 장면 전환 시 변하는 현상(“확률적 드리프트”)이나 모호한 색상 처리로 어려움을 겪었다면, FLUX.2가 해답입니다. FLUX.2는 네이티브 4MP 해상도, 헥스 코드 기반의 색상 정밀도, 그리고 전례 없는 멀티 레퍼런스 일관성을 소비자용 하드웨어에 제공합니다.
FLUX.2가 판도를 바꾸는 이유
FLUX.2-dev는 단순히 더 큰 모델이 아니라, 근본적인 아키텍처 개편입니다. 320억 개의 파라미터를 가진 정류 흐름 변환기(Rectified Flow Transformer) 와 미스트랄(Mistral) 기반의 비전-언어 모델(VLM)을 결합하여 사용합니다 .
쉽게 말해서, 이 모델은 단순히 키워드를 “보는” 것이 아니라 물리, 조명, 공간적 관계까지 이해합니다 . 통계적으로 태그를 일치시키는 것이 아니라, 사용자의 입력 내용을 논리적으로 해석하는 것입니다.
주요 기능 한눈에 보기
- 다중 참조 일관성: 최대 10개의 참조 이미지를 기본적으로 지원합니다. 복잡한 LoRA 학습 없이도 여러 장면에서 캐릭터, 스타일 또는 개체를 동일하게 유지할 수 있습니다.
- 정밀 제어: 정확한 브랜드 색상 일치를 위해 JSON 구조의 프롬프트 와 16진수 코드 (예: )를 지원합니다 .#FF5733
- 네이티브 4MP: 업스케일링 없이도 바로 사용 가능한 4K급 이미지를 생성합니다.
- 하드웨어 효율성: 32바이트라는 엄청난 크기에도 불구하고, 최적화된 FP8 양자화 덕분 에 가중치를 효율적으로 스트리밍하여 고급 소비자용 GPU(RTX 3090/4090/5090)에서도 실행할 수 있습니다.
핵심 아키텍처
다음 다이어그램은 FLUX.2가 이전 버전과 달리 입력을 처리하는 방식을 보여줍니다. FLUX.2는 생성 전에 추론 엔진을 통합합니다.
graph TD
A["사용자 입력 (프롬프트 + 레퍼런스)"] --> B["Mistral 기반 VLM"]
B --> C["논리적 추론 및 공간 계획"]
C --> D["FLUX.2 트랜스포머 (32B 파라미터)"]
D --> E["정제된 잠재(Latent) 생성"]
E --> F["새로운 고해상도 VAE"]
F --> G["4MP 출력 이미지"]
ComfyUI에서 FLUX.2-dev 시작하기
ComfyUI는 FLUX.2를 로컬에서 실행하는 가장 좋은 방법입니다. 모델이 모듈형 구성 요소(확산 모델, 텍스트 인코더, VAE)로 분리되어 있으므로 파일 배치에 정확성이 요구됩니다.
1. 필수 파일
Hugging Face 저장소 에서 특정 파일 세 개를 다운로드해야 합니다 .
| 요소 | 파일 이름 | 대상 디렉터리 |
|---|---|---|
| 확산 모델 | flux2_dev_fp8mixed.safetensors | ComfyUI/models/diffusion_models/ |
| 텍스트 인코더 | mistral_3_small_flux2_fp8.safetensors | ComfyUI/models/text_encoders/ |
| VAE | flux2-vae.safetensors | ComfyUI/models/vae/ |
2. 설치 단계
- ComfyUI 업데이트: FLUX.2에는 새로운 노드가 필요합니다. 해당 ComfyUI_windows_portable폴더로 이동하여 명령어를 실행 update/update_comfyui.bat하거나 git pull터미널에서 명령어를 사용하세요.
- 가중치 파일 다운로드: 위 표에 나열된 파일을 각각의 디렉토리에 넣어주세요.
- 워크플로 로드: FLUX.2 공식 예제 이미지를 ComfyUI 창으로 드래그하세요.
3. 코드: Python (디퓨저)
FLUX.2를 앱에 통합하는 개발자라면 해당 라이브러리를 사용하세요 . 메모리 효율성을 위해 diffusers해당 라이브러리를 사용하는 것에 유의하세요 .bfloat16
import torch
from diffusers import Flux2Pipeline
from diffusers.utils import load_image
# Load the pipeline with bfloat16 to save memory
pipe = Flux2Pipeline.from_pretrained(
"black-forest-labs/FLUX.2-dev",
torch_dtype=torch.bfloat16,
device_map="balanced" # Distributes across GPU/CPU if needed
)
# Enable memory slicing for lower VRAM usage
pipe.enable_model_cpu_offload()
# Define Prompt with specific color codes
prompt = "A futuristic cyborg, glossy white armor #FFFFFF, neon blue eyes #00FFFF, cinematic lighting, 4k"
image = pipe(
prompt,
height=2048,
width=2048,
guidance_scale=3.5,
num_inference_steps=25,
max_sequence_length=512
).images[0]
image.save("flux2_output.png")
고급 사용법: “구조화된 프롬프트”
FLUX.2의 숨겨진 강력한 기능 중 하나는 구조화된 데이터를 이해하는 것입니다. 단락 대신 의사 JSON을 전달하여 요소를 엄격하게 정의할 수 있습니다.
{
"subject": "Cyberpunk Street Vendor",
"lighting": {
"type": "Volumetric neon",
"color_palette": ["#FF0099", "#00CCFF"],
"direction": "Top-down"
},
"camera": "50mm, f/1.8, bokeh",
"style": "Photorealistic, Unreal Engine 5 render"
}
이 구조를 텍스트 프롬프트 노드에 직접 붙여넣으세요. FLUX.2의 VLM은 복잡한 장면에서 자연어보다 이 형식을 더 잘 파싱할 수 있습니다.
최상의 품질을 위한 전문가 팁
- FP8 버전을 사용하세요: 전체 32비트 모델은 약 90GB의 VRAM이 필요합니다. 이 fp8mixed버전은 품질의 99%를 유지하면서 ComfyUI의 가중치 스트리밍을 사용하여 RTX 3090/4090(24GB VRAM)에서도 작동합니다.
- 다중 참조가 핵심입니다: 캐릭터의 일관성을 유지하려면 다양한 각도에서 촬영한 얼굴 이미지 3~5장을 “참조” 입력 노드에 업로드하세요. FLUX.2는 이를 위해 LoRA가 필요하지 않으며, “컨텍스트 내 학습”을 사용합니다.
- 단계 수는 줄이고 안내 수준은 높이세요: FLUX.2는 FLUX.1보다 수렴 속도가 빠릅니다. 일반적으로 20~25단계 만으로도 충분합니다 . 하지만 복잡한 지시 사항을 더욱 정확하게 따르려면 안내 수준 (CFG)을 약간 높여(3.5~4.5) 사용할 수 있습니다.
- 텍스트 렌더링: 텍스트를 생성할 때 정확한 문구를 따옴표로 묶고 글꼴 스타일을 명시적으로 지정하십시오(예: “TipTinker”라는 텍스트를 굵은 산세리프 금색 글꼴로 작성 ).
FLUX.2-dev는 전문적인 용도에 있어 이전 세대 워크플로우를 구식으로 만들어 버립니다. 추론 기능과 네이티브 다중 참조 지원을 통합하여, AI 이미지 생성을 단순한 기계식 작업에서 정밀한 디자인 도구로 탈바꿈시킵니다.
RTX 3090 이상의 그래픽 카드를 가지고 있다면 더 이상 기다릴 필요가 없습니다. FP8 가중치를 다운로드하고 ComfyUI를 실행하여 오픈 웨이트 AI의 미래를 경험해 보세요.
일관성 있는 AI 캐릭터를 처음으로 만들어볼 준비가 되셨나요? 지금 바로 ComfyUI 예제를 다운로드하고 다중 참조 워크플로우를 테스트해 보세요.
