HunyuanImage-3.0 多模态图像生成大模型

HunyuanImage-3.0是一个开创性的原生多模态模型，在一个统一的自回归框架下整合了多模态理解和生成能力，让文本到图像生成性能达到或超越了领先的闭源模型。HunyuanImage-3.0 作为目前规模最大的开源图像生成专家混合（MoE）模型，拥有800亿总参数和130亿活跃参数，能生成兼具语义准确性、视觉卓越性、照片级真实感及精细细节的高质量图像，高度遵循用户提示，具备智能世界知识推理能力，能够自动理解并丰富用户提供的简短提示，支持多种图像分辨率设置，通过开源的推理代码、模型权重和提示词自动重写功能（如通过Instruct模型或集成DeepSeek）提供强大的、可定制的图像创作。

统一多模态架构：打破主流DiT架构局限，采用统一自回归框架。这种设计让文本与图像模态的建模更直接、更融合，生成的图像不仅效果出色，还能承载更丰富的上下文信息。

最大规模图像生成MoE模型：作为当前开源领域规模最大的混合专家（MoE）图像生成模型，它配备64个专家，总参数量达800亿，每个令牌激活130亿参数，大幅提升模型容量与性能。

卓越图像生成性能：通过严格的数据集筛选与先进的强化学习后训练，在语义准确性与视觉效果间找到最佳平衡。模型能精准贴合提示要求，生成的图像兼具照片级真实感、出色美学效果与精细细节。

智能世界知识推理：统一多模态架构赋予模型强大推理能力。依托丰富世界知识，模型可智能解读用户意图，对简洁提示自动补充上下文相关细节，生成更优质、更完整的视觉成果。

HunyuanImage-3.0安装和使用

系统要求

• 操作系统：Linux • GPU：支持CUDA的NVIDIA显卡 • 磁盘空间：170GB（用于存储模型权重） • GPU内存：≥3×80GB（推荐4×80GB以获得更优性能）

环境配置

• Python：3.12及以上（推荐版本，已完成测试） • PyTorch：2.7.1 • CUDA：12.8

安装依赖

1、首先安装PyTorch（CUDA 12.8版本）

pip install torch==2.7.1 torchvision==0.22.1 torchaudio==2.7.1 --index-url https://download.pytorch.org/whl/cu128

2、接着安装腾讯云SDK

pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python

3、最后安装其他依赖

pip install -r requirements.txt

性能优化

要让推理速度提升最高3倍，可安装以下优化工具： 1、FlashAttention（加速注意力计算）

pip install flash-attn==2.8.3 --no-build-isolation

2、FlashInfer（优化MoE推理，已测试v0.3.1版本）

pip install flashinfer-python

注意事项

• 安装提示：PyTorch使用的CUDA版本必须与系统CUDA版本匹配，FlashInfer在运行时编译内核需依赖这种兼容性。已测试PyTorch 2.7.1+cu128版本，推荐使用≥9版本的GCC编译FlashAttention与FlashInfer。

• 性能提示：这些优化工具能显著加快推理速度。

• 注意事项：启用FlashInfer后，首次推理可能因内核编译变慢（约10分钟），同一机器后续推理速度会大幅提升。

HunyuanImage-3.0使用

通过Transformers快速开始

1、下载模型权重

# 从HuggingFace下载并重新命名目录
# 注意：目录名称不能包含句点，否则可能导致Transformers加载失败
hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3

2、使用Transformers运行

from transformers import AutoModelForCausalLM

# 加载模型
model_id = "./HunyuanImage-3"
# 目前无法直接使用HF模型ID“tencent/HunyuanImage-3.0”加载模型
# 原因是名称中包含句点

kwargs = dict(
    attn_implementation="sdpa",     # 若已安装FlashAttention，可使用“flash_attention_2”
    trust_remote_code=True,
    torch_dtype="auto",
    device_map="auto",
    moe_impl="eager",   # 若已安装FlashInfer，可使用“flashinfer”
)

model = AutoModelForCausalLM.from_pretrained(model_id, **kwargs)
model.load_tokenizer(model_id)

# 生成图像
prompt = "一只棕白相间的狗在草地上奔跑"
image = model.generate_image(prompt=prompt, stream=True)
image.save("image.png")

本地安装

1、克隆仓库

git clone https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.git
cd HunyuanImage-3.0/

2、下载模型权重

# 从HuggingFace下载
hf download tencent/HunyuanImage-3.0 --local-dir ./HunyuanImage-3

3、运行演示预训练检查点不会自动重写或优化输入提示，目前为获得最佳效果，推荐社区伙伴使用DeepSeek重写提示。可前往腾讯云申请API密钥。

# 设置环境变量
export DEEPSEEK_KEY_ID="你的deepseek_key_id"
export DEEPSEEK_KEY_SECRET="你的deepseek_key_secret"

python3 run_image_gen.py --model-id ./HunyuanImage-3 --verbose 1 --sys-deepseek-prompt "universal" --prompt "一只棕白相间的狗在草地上奔跑"

4、命令行参数说明

参数	描述	默认值
`--prompt`	输入提示	（必填）
`--model-id`	模型路径	（必填）
`--attn-impl`	注意力实现方式，可选`sdpa`或`flash_attention_2`	`sdpa`
`--moe-impl`	MoE实现方式，可选`eager`或`flashinfer`	`eager`
`--seed`	图像生成随机种子	`None`
`--diff-infer-steps`	扩散推理步数	`50`
`--image-size`	图像分辨率，可设为`auto`、`1280x768`或`16:9`等	`auto`
`--save`	图像保存路径	`image.png`
`--verbose`	日志级别，0为不输出日志，1为输出推理信息	`0`
`--rewrite`	是否启用提示重写	`1`
`--sys-deepseek-prompt`	选择系统提示，可选`universal`或`text_rendering`	`universal`

交互式Gradio演示

搭建交互式网页界面，方便进行文本到图像生成操作。 1、安装Gradio

pip install gradio>=4.21.0

2、配置环境

# 设置模型路径
export MODEL_ID="你的模型路径"

# 可选：配置GPU使用（默认：0,1,2,3）
export GPUS="0,1,2,3"

# 可选：配置主机与端口（默认：0.0.0.0:443）
export HOST="0.0.0.0"
export PORT="443"

3、启动网页界面 • 基础启动：

sh run_app.sh

• 启用性能优化启动（同时使用两种优化工具以获得最高性能）：

sh run_app.sh --moe-impl flashinfer --attn-impl flash_attention_2

4、访问界面打开浏览器，输入http://localhost:443（或你配置的端口）即可访问网页界面。

模型卡片

模型	参数	下载地址	推荐显存	支持功能
混元Image-3.0	总800亿（激活130亿）	HuggingFace	≥ 3 × 80 GB	✅ 文本到图像
混元Image-3.0-Instruct	总800亿（激活130亿）	HuggingFace	≥ 3 × 80 GB	✅ 文本到图像 ✅ 提示自动重写 ✅ 思维链推理