Wan-Move 是通过潜在轨迹引导实现运动可控视频生成的框架,能为图像到视频的生成提供先进、精细到点级别的运动控制。Wan-Move 实现高质量的5秒480p视频生成,它的运动控制能力达到业界领先水平,甚至可媲美商业系统。Wan-Move 采用一种新颖的潜在轨迹引导机制,通过沿轨迹传播首帧特征来表示运动条件,能无缝集成到现有图像到视频模型中,无需改变架构或添加额外运动模块。Wan-Move 支持精细到点级别的控制,通过密集的点轨迹精确控制场景中每个元素的运动。为推动领域发展,Wan-Move 推出了专用的运动控制基准数据集MoveBench,该数据集包含大规模样本、多样化的内容、更长的视频时长以及高质量的轨迹标注,有助于全面评估运动控制性能。
• 高质量运动控制:经过规模化训练,可生成 5 秒时长、480P 分辨率的视频,运动控制效果达到行业领先水平。通过用户调研验证,其表现与 Kling 1.5 Pro 的 Motion Brush 等商业系统相当。
• 创新潜在轨迹引导:核心思路是让第一帧的特征沿轨迹传播,以此表示运动条件。这种方式能无缝融入现成的图像到视频模型(如 Wan-I2V-14B)。
• 精细点级控制:用密集点轨迹描述物体运动,可对场景中每个元素的运动方式进行精准的区域级控制。
• 专属运动控制基准测试集 MoveBench:包含更大规模样本、更长视频时长,标注了高质量轨迹,覆盖丰富内容类别,适用于运动控制相关的模型评估。
Wan-Move 支持多种运动控制应用,生成的视频(分辨率 832×480P,时长 5 秒)兼具高视觉保真度和精准运动效果:
• 多物体运动控制
• 复杂运动模拟
• 物体 + 相机联动运动
• 基础级运动控制
• 运动迁移
• 3D 旋转效果实现
Wan-Move 更多内容可以访问 wan-move.github.io/
注意:Wan-Move 是在 Wan2.1 代码库基础上开发的轻量扩展。若已使用过 Wan2.1,可复用现有大部分配置,迁移成本极低。
1、克隆仓库:
git clone https://github.com/ali-vilab/Wan-Move.git
cd Wan-Move
2、安装依赖(需确保 torch 版本 ≥ 2.4.0):
pip install -r requirements.txt
目前提供的模型及下载方式如下:
| 模型名称 | 下载链接 | 说明 |
|---|---|---|
| Wan-Move-14B-480P | Hugging Face / ModelScope | 支持 5 秒 480P 视频生成 |
• 通过 huggingface-cli 下载:
pip install "huggingface_hub[cli]"
huggingface-cli download Ruihang/Wan-Move-14B-480P --local-dir ./Wan-Move-14B-480P
• 通过 modelscope-cli 下载:
pip install modelscope
modelscope download churuihang/Wan-Move-14B-480P --local_dir ./Wan-Move-14B-480P
1、下载 MoveBench 数据集(支持中英文版本):
huggingface-cli download Ruihang/MoveBench --local-dir ./MoveBench --repo-type dataset
注意事项:
• MoveBench 已提供视频描述,为保证评估公平,需关闭 Wan2.1 中的提示扩展功能。
• 可通过 --language 参数选择语言:en 对应英文,zh 对应中文。
• 单物体运动测试:
python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench
• 多物体运动测试:
python generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench
补充说明:
• 若想可视化视频演示中的轨迹运动效果,可添加 --vis_track 参数。也可使用独立可视化脚本 scripts/visualize.py,支持鼠标交互等多种可视化设置。
• 遇到显存不足(OOM)问题时,可使用 --offload_model True 和 --t5_cpu 选项减少 GPU 内存占用。
Wan-Move 支持 FSDP 和 xDiT USP 加速推理。批量评估(如评估 MoveBench 或包含多个测试案例的文件)时,需设置 --ulysses_size 1 禁用 Ulysses 策略(该策略仅支持多 GPU 生成单个视频)。
• 单物体运动测试:
torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode single --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp
• 多物体运动测试:
torchrun --nproc_per_node=8 generate.py --task wan-move-i2v --size 480*832 --ckpt_dir ./Wan-Move-14B-480P --mode multi --language en --save_path results/en --eval_bench --dit_fsdp --t5_fsdp
评估结果统计:修改 MoveBench/bench.py 中的结果存储路径后,运行:
python MoveBench/bench.py
若无需评估 MoveBench,仅生成单个视频,可直接使用 examples 文件夹中的示例案例:
python generate.py \
--task wan-move-i2v \
--size 480*832 \
--ckpt_dir ./Wan-Move-14B-480P \
--image examples/example.jpg \
--track examples/example_tracks.npy \
--track_visibility examples/example_visibility.npy \
--prompt "A laptop is placed on a wooden table、The silver laptop is connected to a small grey external hard drive and transfers data through a white USB-C cable、The video is shot with a downward close-up lens." \
--save_file example.mp4
后续将推出 Gradio 工具,方便自由创作专属视频。
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU