美团发布LongCat-Image：重新定义AI图像生成与编辑的新模型

您是否还在为AI模型体积过大、运行缓慢，或是无法正确渲染文字（尤其是中文）而烦恼？现在，一位新的挑战者已然入局。它就是来自美团的LongCat-Image——一个重新定义了效率与质量的开源AI图像生成模型。在TipTinker，我们将深入探讨这款模型为何能成为开发者与创作者的“游戏规则改变者”。

LongCat-Image不只是又一个AI模型，它是一个旨在解决AI图像生成领域核心痛点的综合生态系统。让我们一探究竟，看看它为何如此引人注目。

LongCat-Image的特别之处是什么？

LongCat-Image凭借几项直击用户痛点的“杀手级”功能脱颖而出。

卓越的效率：仅用60亿参数，LongCat-Image的性能便足以媲美甚至超越许多体量数倍于它的开源模型。这意味着更低的硬件门槛和更快的推理速度，同时保证了顶级的图像质量。
精湛的双语文本渲染：这是它的“超能力”。该模型在渲染复杂的汉字时展现出卓越的准确性和稳定性，完美解决了许多其他模型的短板，同时它的英文文本渲染能力也同样出色。
顶级的图像编辑能力：专门的LongCat-Image-Edit模型提供了令人惊叹的精准度。它能出色地遵循复杂的指令，进行局部或全局编辑，并保持未编辑区域的高度一致性。
非凡的真实感：通过创新的数据策略，LongCat-Image生成的图像拥有极高的真实感和丰富的细节。
真正完整的开源生态：美团不仅发布了最终模型，还提供了中间训练节点和完整的训练代码，极大地赋能社区，鼓励在其基础上进行二次开发和研究。

[Image: 一组LongCat-Image能力展示图，包含逼真的人像、复杂的场景以及完美的中文文字渲染效果。]

LongCat-Image快速上手指南

准备好亲手试试了吗？入门过程非常简单。LongCat-Image套件包含两个主要的推理模型：一个用于文生图，另一个用于图像编辑。

步骤一：配置环境

首先，克隆官方代码库并安装所需依赖。

# 克隆仓库
git clone https://github.com/meituan-longcat/LongCat-Image
cd LongCat-Image

# 创建conda环境并安装依赖
conda create -n longcat-image python=3.10
conda activate longcat-image
pip install -r requirements.txt
python setup.py develop

步骤二：文本生成图像

使用LongCat-Image模型，通过文本提示词创作惊艳的视觉作品。请注意代码中关于提示词重写的技巧，它能进一步提升生成质量。

import torch
from transformers import AutoProcessor
from longcat_image.models import LongCatImageTransformer2DModel
from longcat_image.pipelines import LongCatImagePipeline

device = torch.device('cuda')
checkpoint_dir = './weights/LongCat-Image' # 假设您已在此处下载模型

text_processor = AutoProcessor.from_pretrained(checkpoint_dir, subfolder='tokenizer')
transformer = LongCatImageTransformer2DModel.from_pretrained(
    checkpoint_dir,
    subfolder='transformer',
    torch_dtype=torch.bfloat16
).to(device)

pipe = LongCatImagePipeline.from_pretrained(
    checkpoint_dir,
    transformer=transformer,
    text_processor=text_processor
)

# 如果显存有限（约需17GB），启用CPU offload
pipe.enable_model_cpu_offload()

prompt = '一个年轻的亚裔女性，身穿黄色针织衫，背景是一堵粗糙的砖墙。阳光温暖地洒在她身上，她正在恬静地微笑。'

image = pipe(
    prompt,
    height=1344,
    width=768,
    guidance_scale=4.5,
    num_inference_steps=50,
    enable_prompt_rewrite=True # 利用文本编码器优化输入指令
).images[0]

image.save('./my_first_longcat_image.png')

步骤三：高精度图像编辑

如需修改现有图片，请使用LongCat-Image-Edit模型。无论是改变物体颜色，还是“反转猫狗”，它都能轻松胜任。

import torch
from PIL import Image
from longcat_image.pipelines import LongCatImageEditPipeline

# 假设已为Edit模型加载了基础设置（device, transformer等）
# checkpoint_dir 应为 './weights/LongCat-Image-Edit'

edit_pipe = LongCatImageEditPipeline.from_pretrained(...)
edit_pipe.enable_model_cpu_offload() # 如果显存有限（约需19GB），请启用

init_image = Image.open('assets/test.png').convert('RGB')
prompt = '把猫变成一只戴着项圈的柴犬'

image = edit_pipe(
    init_image,
    prompt,
    guidance_scale=4.5,
    num_inference_steps=50
).images[0]

image.save('./edited_image.png')

🚀 专家提示：获取最佳效果

技巧	描述
给文本加引号	至关重要：若想在图片中渲染文字，务必在提示词中用双引号（`""`）将文字括起来。这会告知分词器启用字符级编码以获得最佳效果。
管理你的显存	如果没有顶级GPU，请使用`pipe.enable_model_cpu_offload()`。虽然速度稍慢，但能有效避免显存溢出错误。
优化你的提示词	在文生图时，保持`enable_prompt_rewrite=True`。模型会利用其强大的文本编码器在生成前优化你的指令。
善用开发者模型	对于研究人员，`LongCat-Image-Dev`模型是在自定义数据集上进行微调（Fine-tuning）的理想起点。