Wan-Move：通过潜在轨迹引导实现运动可控视频生成的框架

Wan-Move 是通过潜在轨迹引导实现运动可控视频生成的框架，能为图像到视频的生成提供先进、精细到点级别的运动控制。Wan-Move 实现高质量的5秒480p视频生成，它的运动控制能力达到业界领先水平，甚至可媲美商业系统。Wan-Move 采用一种新颖的潜在轨迹引导机制，通过沿轨迹传播首帧特征来表示运动条件，能无缝集成到现有图像到视频模型中，无需改变架构或添加额外运动模块。Wan-Move 支持精细到点级别的控制，通过密集的点轨迹精确控制场景中每个元素的运动。为推动领域发展，Wan-Move 推出了专用的运动控制基准数据集MoveBench，该数据集包含大规模样本、多样化的内容、更长的视频时长以及高质量的轨迹标注，有助于全面评估运动控制性能。

Wan-Move 关键特性

• 高质量运动控制：经过规模化训练，可生成 5 秒时长、480P 分辨率的视频，运动控制效果达到行业领先水平。通过用户调研验证，其表现与 Kling 1.5 Pro 的 Motion Brush 等商业系统相当。

• 创新潜在轨迹引导：核心思路是让第一帧的特征沿轨迹传播，以此表示运动条件。这种方式能无缝融入现成的图像到视频模型（如 Wan-I2V-14B）。

• 精细点级控制：用密集点轨迹描述物体运动，可对场景中每个元素的运动方式进行精准的区域级控制。

• 专属运动控制基准测试集 MoveBench：包含更大规模样本、更长视频时长，标注了高质量轨迹，覆盖丰富内容类别，适用于运动控制相关的模型评估。

Wan-Move功能应用场景

Wan-Move 支持多种运动控制应用，生成的视频（分辨率 832×480P，时长 5 秒）兼具高视觉保真度和精准运动效果：

• 多物体运动控制

• 复杂运动模拟

• 物体 + 相机联动运动

• 基础级运动控制

• 运动迁移

• 3D 旋转效果实现

Wan-Move 更多内容可以访问 wan-move.github.io/

快速上手 Wan-Move

环境搭建

注意：Wan-Move 是在 Wan2.1 代码库基础上开发的轻量扩展。若已使用过 Wan2.1，可复用现有大部分配置，迁移成本极低。

1、克隆仓库：

git clone https://github.com/ali-vilab/Wan-Move.git
cd Wan-Move

2、安装依赖（需确保 torch 版本 ≥ 2.4.0）：

pip install -r requirements.txt

模型下载

目前提供的模型及下载方式如下：

模型名称	下载链接	说明
Wan-Move-14B-480P	Hugging Face / ModelScope	支持 5 秒 480P 视频生成

下载方式

• 通过 huggingface-cli 下载：

pip install "huggingface_hub[cli]"
huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P

• 通过 modelscope-cli 下载：

pip install modelscope
modelscope download churuihang/Wan-Move-14B-480P --local_dir ./Wan-Move-14B-480P

MoveBench 评估

1、下载 MoveBench 数据集（支持中英文版本）：

huggingface-cli download Ruihang/MoveBench --local-dir ./MoveBench --repo-type dataset

注意事项：

• MoveBench 已提供视频描述，为保证评估公平，需关闭 Wan2.1 中的提示扩展功能。

• 可通过 --language 参数选择语言：en 对应英文，zh 对应中文。

单 GPU 推理

• 单物体运动测试：

python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench

• 多物体运动测试：

python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench

补充说明： • 若想可视化视频演示中的轨迹运动效果，可添加 --vis_track 参数。也可使用独立可视化脚本 scripts/visualize.py，支持鼠标交互等多种可视化设置。

• 遇到显存不足（OOM）问题时，可使用 --offload_model True 和 --t5_cpu 选项减少 GPU 内存占用。

多 GPU 推理

Wan-Move 支持 FSDP 和 xDiT USP 加速推理。批量评估（如评估 MoveBench 或包含多个测试案例的文件）时，需设置 --ulysses_size 1 禁用 Ulysses 策略（该策略仅支持多 GPU 生成单个视频）。

• 单物体运动测试：

torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp

• 多物体运动测试：

torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp

评估结果统计：修改 MoveBench/bench.py 中的结果存储路径后，运行：

python MoveBench/bench.py

运行默认示例

若无需评估 MoveBench，仅生成单个视频，可直接使用 examples 文件夹中的示例案例：

python generate.py \
 --task wan-move-i2v \
 --size 480*832 \
 --ckpt_dir ./Wan-Move-14B-480P \
 --image examples/example.jpg \
 --track examples/example_tracks.npy \
 --track_visibility examples/example_visibility.npy \
 --prompt "A laptop is placed on a wooden table、The silver laptop is connected to a small grey external hard drive and transfers data through a white USB-C cable、The video is shot with a downward close-up lens." \
 --save_file example.mp4

后续将推出 Gradio 工具，方便自由创作专属视频。

▶ 访问