LongAnimation解决了现有动画生成在长时间序列中难以保持颜色一致性的挑战,提出了一个动态全局-局部范式,通过动态提取与当前生成相关的全局颜色一致性特征,实现了理想的长期动画颜色连贯性。LongAnimation为目标线稿序列进行着色并融入特定的角色设计,支持文本引导的背景生成等创意应用,已获得ICCV 2025的认可,能够在特定分辨率下高效生成高质量动画。
LongAnimation由中国科学技术大学(USTC)的Nan Chen、Mengqi Huang、Zhendong Mao与香港科技大学(HKUST)的Yihao Meng共同开发,相关论文《LongAnimation: Long Animation Generation with Dynamic Global-Local Memory》已被ICCV 2025接收。
• 现有局部范式:通过融合相邻视频片段的重叠部分实现局部色彩一致性,但忽略全局信息,导致长期色彩一致性差。
• 动态全局-局部范式:动态提取全局历史片段的色彩特征作为全局记忆,结合最新生成片段的色彩特征作为局部记忆,实现高长期色彩一致性。
SketchDiT:捕捉混合参考特征,为动态全局-局部记忆(DGLM)模块提供支持。
DGLM模块:利用长视频理解模型动态压缩全局历史特征,并自适应地与当前生成特征融合。
色彩一致性奖励(Color Consistency Reward):优化色彩一致性,细化细节。
局部色彩融合(LCF):推理时用于平滑视频片段过渡,从去噪后期(t_st=20)开始应用效果更佳,可避免亮度异常变化或帧间突变。
通过改变参考图像中女孩裙子的颜色,LongAnimation能生成女孩穿着不同颜色裙子的视频,证明其可通过自由调整参考图像颜色,生成具有高度自由度的长期色彩一致视频。
与以往方法相比,LongAnimation在长期色彩一致性上表现更优。例如:
• 对女孩的裙子和树叶,能保持更好的长期色彩一致性,而其他方法难以做到。
• LVCD*表示由灰度草图引导的LVCD,其他方法均使用二值化草图,在对比视频中,LongAnimation的优势明显。
给定分割的前景参考图像和线条草图,LongAnimation可基于提示为前景生成长期动态背景,这是以往方法无法实现的。示例包括:
• 男孩和女孩坐在沙滩上
• 男孩和女孩坐在森林里
• 男孩和女孩坐在公园里
验证各组件有效性:仅使用SketchDiT时,长期色彩一致性一般;加入DGLM机制后,显著提升(如避免小女孩头发颜色频繁变化);色彩一致性奖励(CCR)进一步细化细节(如女孩的发带)。
• 训练:6块A100 GPU(80GB显存)
• 推理:1块A100 GPU
1、克隆仓库
git clone https://github.com/CN-makers/LongAnimation
cd LongAnimation
2、创建并激活环境(建议在Linux系统操作)
conda create -n LongAnimation python=3.10 -y
conda activate LongAnimation
bash install.sh
• 预训练的CogVideoX-1.5 I2V checkpoint:下载后放入pretrained_weight
,路径为./pretrained_weights/CogVideoX1.5-5B-I2V
• 预训练的长视频理解模型Video-XL checkpoint:下载后放入pretrained_weight
,路径为./pretrained_weights/videoxl
• SketchDiT和DGLM模型的checkpoint:下载后路径为./pretrained_weights/longanimation
1、为目标线条序列着色(特定角色设计),可运行:
bash long_animation_inference.sh
2、test_json
文件夹提供测试案例,也可使用自有数据,在Long_animation_inference.sh
脚本中修改线条序列和对应角色设计。
3、训练和测试中使用的--height
和--weight
分别为576和1024,模型也兼容768×1360的分辨率。