科学工具
科学工具让世界更美好
让世界更美好

14B参数实时视频生成扩散模型 Krea Realtime 14B14B参数实时视频生成扩散模型 Krea Realtime 14B

Krea Realtime 14B能提供基于140亿参数扩散模型的实时视频生成功能,通过Self-Forcing蒸馏技术将基础模型转换为自回归模式,通过进行大规模内存优化,最后实现高效实时输出。Krea Realtime 14B 提供文本到视频生成(例如,在NVIDIA B200上达到11帧/秒)、视频到视频转换以及长视频内容的创建,提供WebSocket流媒体服务器实现实时交互式体验和离线批处理采样模式,支持优化的KV缓存管理和多种注意力机制后端,通过高性能生成高质量的视频。

Krea Realtime 14B 安装的系统要求

• 显卡:推荐使用显存 40GB 及以上的 NVIDIA 显卡;NVIDIA B200 显卡在 4 个推理步骤下可实现 11 fps 生成速度;H100、RTX 5xxx 系列显卡同样适用。

• 操作系统:支持 Linux 系统, 推荐使用Ubuntu。

• Python 版本:需使用 3.11 及以上版本。

• 存储:模型检查点需占用约 30GB 存储空间。

搭建 Krea Realtime 14B

1、创建虚拟环境

执行 uv sync 命令,完成虚拟环境创建。

2、安装注意力后端

针对不同显卡型号,安装方式有所区别:

• NVIDIA B200 显卡(推荐使用):执行 uv pip install flash_attn --no-build-isolation

• H100/RTX 5xxx 及其他型号显卡:可执行 uv pip install libs/sageattention-2.2.1-cp311-cp311-linux_x86_64.whl,也能运行 bash install_sage.sh 脚本安装。

需注意,SageAttention 2++ 和 3 版本未经过测试,使用可能导致生成质量下降。

3、安装 FFmpeg

依次执行 sudo apt updatesudo apt install ffmpeg 命令,完成 FFmpeg 安装。

4、下载模型检查点

• 基础模型:运行 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir-use-symlinks False --local-dir wan_models/Wan2.1-T2V-1.3B

• Krea Realtime 模型:运行 huggingface-cli download krea/krea-realtime-video krea-realtime-video-14b.safetensors --local-dir checkpoints

使用 Krea Realtime 14B

方式一:实时服务器(依赖 release_server.py)

通过启动 WebSocket 服务器,实现实时视频生成并以流式输出。

1、配置环境变量

设置以下环境变量:

export MODEL_FOLDER=wan_models(指定模型文件夹)

export CONFIG=configs/self_forcing_server_14b.yaml(配置文件路径,该步骤可选)

export CUDA_VISIBLE_DEVICES=0(指定使用的 GPU 设备)

export DO_COMPILE=true(启用 torch.compile 以提升性能)

2、启动服务器

执行 uvicorn release_server:app --host 0.0.0.0 --port 8000,启动服务器。

3、访问演示功能

• 健康检查:执行 curl http://localhost:8000/health 命令,检查服务器运行状态。

• Web 界面:在浏览器中打开 http://localhost:8000/,进入演示界面。

演示界面(对应 templates/release_demo.html 文件)支持输入提示词、调整生成参数、通过 WebSocket 实时流式传输视频帧。

4、配置选项说明

• 设置 DO_COMPILE=false,可关闭 torch.compile,启动速度会更快,但推理速度会变慢。

• 通过 CONFIG 变量指定自定义配置文件路径。

• 按下 Ctrl+C 可停止服务器运行。

方式二:离线采样(依赖 sample.py)

无需 WebSocket 层,直接离线生成视频。

1、基础示例

先创建生成视频的脚本(示例脚本命名为 sample_run.py):

from pathlib import Path
from release_server import GenerateParams
from sample import sample_videos

# 配置生成参数
params = GenerateParams(
    prompt="",  # 每个提示词会覆盖该值
    width=832,
    height=480,
    num_blocks=9,
    seed=42,
    kv_cache_num_frames=3,
)

# 定义提示词
prompts = [
    "日落时分,海浪波光粼粼的超写实特写镜头。",
    "霓虹灯闪烁的繁忙小巷,路面被雨水浸湿。",
]

# 生成视频
sample_videos(
    prompts_list=prompts,
    config_path="configs/self_forcing_dmd_will_optims.yaml",
    output_dir="outputs/samples",
    params=params,
    save_videos=True,  # 需要 FFmpeg 支持
    fps=24,
)

然后执行 python sample_run.py,运行脚本生成视频。

2、关键细节

• 模型加载:当 models=None 时,模型会延迟加载;多次调用时,复用返回的 models 对象,避免重复加载。

• 输出结构:视频帧会保存到 output_dir/prompt_XXX/ 路径下;若设置 save_videos=True,视频会以 MP4 格式保存。

• 辅助工具:sample.py 文件中包含 create_grid()sample_single_video() 等辅助工具,可根据需求使用。