科学工具
科学工具让世界更美好
让世界更美好

Wan-Move:通过潜在轨迹引导实现运动可控视频生成的框架

Wan-Move 是通过潜在轨迹引导实现运动可控视频生成的框架,能为图像到视频的生成提供先进、精细到点级别的运动控制。Wan-Move 实现高质量的5秒480p视频生成,它的运动控制能力达到业界领先水平,甚至可媲美商业系统。Wan-Move 采用一种新颖的潜在轨迹引导机制,通过沿轨迹传播首帧特征来表示运动条件,能无缝集成到现有图像到视频模型中,无需改变架构或添加额外运动模块。Wan-Move 支持精细到点级别的控制,通过密集的点轨迹精确控制场景中每个元素的运动。为推动领域发展,Wan-Move 推出了专用的运动控制基准数据集MoveBench,该数据集包含大规模样本、多样化的内容、更长的视频时长以及高质量的轨迹标注,有助于全面评估运动控制性能。

Wan-Move 关键特性

• 高质量运动控制:经过规模化训练,可生成 5 秒时长、480P 分辨率的视频,运动控制效果达到行业领先水平。通过用户调研验证,其表现与 Kling 1.5 Pro 的 Motion Brush 等商业系统相当。

• 创新潜在轨迹引导:核心思路是让第一帧的特征沿轨迹传播,以此表示运动条件。这种方式能无缝融入现成的图像到视频模型(如 Wan-I2V-14B)。

• 精细点级控制:用密集点轨迹描述物体运动,可对场景中每个元素的运动方式进行精准的区域级控制。

• 专属运动控制基准测试集 MoveBench:包含更大规模样本、更长视频时长,标注了高质量轨迹,覆盖丰富内容类别,适用于运动控制相关的模型评估。

Wan-Move功能应用场景

Wan-Move 支持多种运动控制应用,生成的视频(分辨率 832×480P,时长 5 秒)兼具高视觉保真度和精准运动效果:

• 多物体运动控制

• 复杂运动模拟

• 物体 + 相机联动运动

• 基础级运动控制

• 运动迁移

• 3D 旋转效果实现

Wan-Move 更多内容可以访问 wan-move.github.io/

快速上手 Wan-Move

环境搭建

注意:Wan-Move 是在 Wan2.1 代码库基础上开发的轻量扩展。若已使用过 Wan2.1,可复用现有大部分配置,迁移成本极低。

1、克隆仓库:

git clone https://github.com/ali-vilab/Wan-Move.git
cd Wan-Move

2、安装依赖(需确保 torch 版本 ≥ 2.4.0):

pip install -r requirements.txt

模型下载

目前提供的模型及下载方式如下:

模型名称 下载链接 说明
Wan-Move-14B-480P Hugging Face / ModelScope 支持 5 秒 480P 视频生成

下载方式

• 通过 huggingface-cli 下载:

pip install "huggingface_hub[cli]"
huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P

• 通过 modelscope-cli 下载:

pip install modelscope
modelscope download churuihang/Wan-Move-14B-480P --local_dir ./Wan-Move-14B-480P

MoveBench 评估

1、下载 MoveBench 数据集(支持中英文版本):

huggingface-cli download Ruihang/MoveBench --local-dir ./MoveBench --repo-type dataset

注意事项:

• MoveBench 已提供视频描述,为保证评估公平,需关闭 Wan2.1 中的提示扩展功能。

• 可通过 --language 参数选择语言:en 对应英文,zh 对应中文。

单 GPU 推理

• 单物体运动测试:

python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench

• 多物体运动测试:

python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench

补充说明: • 若想可视化视频演示中的轨迹运动效果,可添加 --vis_track 参数。也可使用独立可视化脚本 scripts/visualize.py,支持鼠标交互等多种可视化设置。

• 遇到显存不足(OOM)问题时,可使用 --offload_model True--t5_cpu 选项减少 GPU 内存占用。

多 GPU 推理

Wan-Move 支持 FSDP 和 xDiT USP 加速推理。批量评估(如评估 MoveBench 或包含多个测试案例的文件)时,需设置 --ulysses_size 1 禁用 Ulysses 策略(该策略仅支持多 GPU 生成单个视频)。

• 单物体运动测试:

torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp

• 多物体运动测试:

torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp

评估结果统计:修改 MoveBench/bench.py 中的结果存储路径后,运行:

python MoveBench/bench.py

运行默认示例

若无需评估 MoveBench,仅生成单个视频,可直接使用 examples 文件夹中的示例案例:

python generate.py \
 --task wan-move-i2v \
 --size 480*832 \
 --ckpt_dir ./Wan-Move-14B-480P \
 --image examples/example.jpg \
 --track examples/example_tracks.npy \
 --track_visibility examples/example_visibility.npy \
 --prompt "A laptop is placed on a wooden table、The silver laptop is connected to a small grey external hard drive and transfers data through a white USB-C cable、The video is shot with a downward close-up lens." \
 --save_file example.mp4

后续将推出 Gradio 工具,方便自由创作专属视频。