Lumina-mGPT 2.0 自回归图像生成模型，支持多种图像生成任务

Lumina-mGPT 2.0 的自回归图像模型打破了传统单一任务限制，支持文本到图像生成、多图联动生成、主体驱动创作到精细化编辑，在创新架构设计的支持下，模型在保持高效推理的同时，能明显降低硬件资源消耗。

1、统一的自回归Transformer

Lumina-mGPT 2.0采用仅解码器的Transformer架构，通过多模态生成预训练（mGPT）统一处理文本、图像、视频等数据，模型将不同模态数据转换为离散token序列，利用下一token预测目标进行训练，实现跨模态理解与生成。

2、支持动态分辨率

引入明确图像表示（Uni-Rep）系统，通过高度、宽度指示符及行尾标记消除图像分辨率与长宽比的歧义，支持生成512×512到1792×1792像素的图像。

3、模块化扩展设计

基于Flag-DiT（Flow-based Large Diffusion Transformer）架构，集成旋转位置编码（RoPE）、RMSNorm等技术，提升训练稳定性与生成效率，支持多模态数据的统一编码与生成。

训练

1、渐进式微调策略

FP-SFT：从低分辨率到高分辨率逐步微调，平衡视觉概念学习与细节生成。

Omni-SFT：通过多任务数据微调，使模型支持视觉问答、分割、深度估计等下游任务。

2、高效数据利用

仅需1000万高质量图文对训练，模型在生成质量上超越需500万数据量的同类自回归模型，支持多语言提示与复杂场景描述。

3、推理优化

结合无分类器引导（CFG）与温度调节技术，控制生成结果的多样性与细节精度，减少视觉伪影。

应用场景

1、高分辨率图像生成

输入文本描述，生成1024×1024像素以上图像，细节与文本一致性显著优于传统自回归模型（如LlamaGen）。

2、多模态任务统一

视觉生成：支持图像编辑、可控生成及全景图合成。

视觉理解：执行分割、深度估计等识别任务。

跨模态交互：实现多轮视觉问答与对话。

3、扩展模态支持

通过[nextline]与[nextframe]标记，模型可生成超出训练分辨率的图像或视频，支持音频、3D点云等模态的生成。

性能对比

指标	Lumina-mGPT 2.0	传统扩散模型	其他自回归模型
分辨率灵活性	支持任意比例	固定比例	有限调整
训练数据量	1000万	数亿级	500万+
多任务支持	是	否	部分
推理速度（1024px）	15秒/图	30秒/图	20秒/图

快速上手指南

环境配置

git clone https://github.com/Alpha-VLLM/Lumina-mGPT-2.0.git
conda create -n lumina_env python=3.10
pip install -r requirements.txt

模型转换指令

wget https://huggingface.co/ai-forever/MoVQGAN/resolve/main/movqgan_270M.ckpt
mv movqgan_270M.ckpt Lumina-mGPT-2.0/movqgan/270M/

生成示例

python generate.py \
--model_path Lumina-mGPT-2.0 \
--save_path ./results \
--resolution 768x768 \
--guidance_scale 4.0 \
--top_k 4096 \
--temperature 1.0

进阶技巧

• 使用混合精度训练节省显存

• 调整CFG系数平衡生成质量与多样性

• 启用量化模式实现移动端部署

相比前代模型，新版本在ImageNet测试集上取得显著进步：

• FID分数下降32%

• CLIP相似度提升28%

• Inception Score达到8.7

▶ 访问