14B参数实时视频生成扩散模型 Krea Realtime 14B

Krea Realtime 14B能提供基于140亿参数扩散模型的实时视频生成功能，通过Self-Forcing蒸馏技术将基础模型转换为自回归模式，通过进行大规模内存优化，最后实现高效实时输出。Krea Realtime 14B 提供文本到视频生成（例如，在NVIDIA B200上达到11帧/秒）、视频到视频转换以及长视频内容的创建，提供WebSocket流媒体服务器实现实时交互式体验和离线批处理采样模式，支持优化的KV缓存管理和多种注意力机制后端，通过高性能生成高质量的视频。

Krea Realtime 14B 安装的系统要求

• 显卡：推荐使用显存 40GB 及以上的 NVIDIA 显卡；NVIDIA B200 显卡在 4 个推理步骤下可实现 11 fps 生成速度；H100、RTX 5xxx 系列显卡同样适用。

• 操作系统：支持 Linux 系统，推荐使用Ubuntu。

• Python 版本：需使用 3.11 及以上版本。

• 存储：模型检查点需占用约 30GB 存储空间。

搭建 Krea Realtime 14B

1、创建虚拟环境

执行 uv sync 命令，完成虚拟环境创建。

2、安装注意力后端

针对不同显卡型号，安装方式有所区别：

• NVIDIA B200 显卡（推荐使用）：执行 uv pip install flash_attn --no-build-isolation。

• H100/RTX 5xxx 及其他型号显卡：可执行 uv pip install libs/sageattention-2.2.1-cp311-cp311-linux_x86_64.whl，也能运行 bash install_sage.sh 脚本安装。

需注意，SageAttention 2++ 和 3 版本未经过测试，使用可能导致生成质量下降。

3、安装 FFmpeg

依次执行 sudo apt update 和 sudo apt install ffmpeg 命令，完成 FFmpeg 安装。

4、下载模型检查点

• 基础模型：运行 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir-use-symlinks False --local-dir wan_models/Wan2.1-T2V-1.3B。

• Krea Realtime 模型：运行 huggingface-cli download krea/krea-realtime-video krea-realtime-video-14b.safetensors --local-dir checkpoints。

使用 Krea Realtime 14B

方式一：实时服务器（依赖 release_server.py）

通过启动 WebSocket 服务器，实现实时视频生成并以流式输出。

1、配置环境变量

设置以下环境变量：

• export MODEL_FOLDER=wan_models（指定模型文件夹）

• export CONFIG=configs/self_forcing_server_14b.yaml（配置文件路径，该步骤可选）

• export CUDA_VISIBLE_DEVICES=0（指定使用的 GPU 设备）

• export DO_COMPILE=true（启用 torch.compile 以提升性能）

2、启动服务器

执行 uvicorn release_server:app --host 0.0.0.0 --port 8000，启动服务器。

3、访问演示功能

• 健康检查：执行 curl http://localhost:8000/health 命令，检查服务器运行状态。

• Web 界面：在浏览器中打开 http://localhost:8000/，进入演示界面。

演示界面（对应 templates/release_demo.html 文件）支持输入提示词、调整生成参数、通过 WebSocket 实时流式传输视频帧。

4、配置选项说明

• 设置 DO_COMPILE=false，可关闭 torch.compile，启动速度会更快，但推理速度会变慢。

• 通过 CONFIG 变量指定自定义配置文件路径。

• 按下 Ctrl+C 可停止服务器运行。

方式二：离线采样（依赖 sample.py）

无需 WebSocket 层，直接离线生成视频。

1、基础示例

先创建生成视频的脚本（示例脚本命名为 sample_run.py）：

from pathlib import Path
from release_server import GenerateParams
from sample import sample_videos

# 配置生成参数
params = GenerateParams(
    prompt="",  # 每个提示词会覆盖该值
    width=832,
    height=480,
    num_blocks=9,
    seed=42,
    kv_cache_num_frames=3,
)

# 定义提示词
prompts = [
    "日落时分，海浪波光粼粼的超写实特写镜头。",
    "霓虹灯闪烁的繁忙小巷，路面被雨水浸湿。",
]

# 生成视频
sample_videos(
    prompts_list=prompts,
    config_path="configs/self_forcing_dmd_will_optims.yaml",
    output_dir="outputs/samples",
    params=params,
    save_videos=True,  # 需要 FFmpeg 支持
    fps=24,
)

然后执行 python sample_run.py，运行脚本生成视频。

2、关键细节

• 模型加载：当 models=None 时，模型会延迟加载；多次调用时，复用返回的 models 对象，避免重复加载。

• 输出结构：视频帧会保存到 output_dir/prompt_XXX/ 路径下；若设置 save_videos=True，视频会以 MP4 格式保存。

• 辅助工具：sample.py 文件中包含 create_grid() 和 sample_single_video() 等辅助工具，可根据需求使用。

▶ 访问