科学工具
科学工具让世界更美好
让世界更美好

长动画动态记忆生成工具 LongAnimation长动画动态记忆生成工具 LongAnimation

LongAnimation解决了现有动画生成在长时间序列中难以保持颜色一致性的挑战,提出了一个动态全局-局部范式,通过动态提取与当前生成相关的全局颜色一致性特征,实现了理想的长期动画颜色连贯性。LongAnimation为目标线稿序列进行着色并融入特定的角色设计,支持文本引导的背景生成等创意应用,已获得ICCV 2025的认可,能够在特定分辨率下高效生成高质量动画。

LongAnimation由中国科学技术大学(USTC)的Nan Chen、Mengqi Huang、Zhendong Mao与香港科技大学(HKUST)的Yihao Meng共同开发,相关论文《LongAnimation: Long Animation Generation with Dynamic Global-Local Memory》已被ICCV 2025接收。

动态全局-局部范式

• 现有局部范式:通过融合相邻视频片段的重叠部分实现局部色彩一致性,但忽略全局信息,导致长期色彩一致性差。

• 动态全局-局部范式:动态提取全局历史片段的色彩特征作为全局记忆,结合最新生成片段的色彩特征作为局部记忆,实现高长期色彩一致性。

关键模块

SketchDiT:捕捉混合参考特征,为动态全局-局部记忆(DGLM)模块提供支持。

DGLM模块:利用长视频理解模型动态压缩全局历史特征,并自适应地与当前生成特征融合。

色彩一致性奖励(Color Consistency Reward):优化色彩一致性,细化细节。

局部色彩融合(LCF):推理时用于平滑视频片段过渡,从去噪后期(t_st=20)开始应用效果更佳,可避免亮度异常变化或帧间突变。

展示案例

画廊

通过改变参考图像中女孩裙子的颜色,LongAnimation能生成女孩穿着不同颜色裙子的视频,证明其可通过自由调整参考图像颜色,生成具有高度自由度的长期色彩一致视频。

定性对比

与以往方法相比,LongAnimation在长期色彩一致性上表现更优。例如:

• 对女孩的裙子和树叶,能保持更好的长期色彩一致性,而其他方法难以做到。

• LVCD*表示由灰度草图引导的LVCD,其他方法均使用二值化草图,在对比视频中,LongAnimation的优势明显。

创新用法:文本引导背景生成

给定分割的前景参考图像和线条草图,LongAnimation可基于提示为前景生成长期动态背景,这是以往方法无法实现的。示例包括:

• 男孩和女孩坐在沙滩上

• 男孩和女孩坐在森林里

• 男孩和女孩坐在公园里

消融实验

验证各组件有效性:仅使用SketchDiT时,长期色彩一致性一般;加入DGLM机制后,显著提升(如避免小女孩头发颜色频繁变化);色彩一致性奖励(CCR)进一步细化细节(如女孩的发带)。

使用指南

硬件要求

• 训练:6块A100 GPU(80GB显存)

• 推理:1块A100 GPU

环境配置

1、克隆仓库

git clone https://github.com/CN-makers/LongAnimation
cd LongAnimation

2、创建并激活环境(建议在Linux系统操作)

conda create -n LongAnimation python=3.10 -y
conda activate LongAnimation
bash install.sh

模型 checkpoint 下载

• 预训练的CogVideoX-1.5 I2V checkpoint:下载后放入pretrained_weight,路径为./pretrained_weights/CogVideoX1.5-5B-I2V

• 预训练的长视频理解模型Video-XL checkpoint:下载后放入pretrained_weight,路径为./pretrained_weights/videoxl

• SketchDiT和DGLM模型的checkpoint:下载后路径为./pretrained_weights/longanimation

生成动画

1、为目标线条序列着色(特定角色设计),可运行:

bash long_animation_inference.sh

2、test_json文件夹提供测试案例,也可使用自有数据,在Long_animation_inference.sh脚本中修改线条序列和对应角色设计。

3、训练和测试中使用的--height--weight分别为576和1024,模型也兼容768×1360的分辨率。