14B参数实时视频生成扩散模型 Krea Realtime 14BKrea Realtime 14B能提供基于140亿参数扩散模型的实时视频生成功能,通过Self-Forcing蒸馏技术将基础模型转换为自回归模式,通过进行大规模内存优化,最后实现高效实时输出。Krea Realtime 14B 提供文本到视频生成(例如,在NVIDIA B200上达到11帧/秒)、视频到视频转换以及长视频内容的创建,提供WebSocket流媒体服务器实现实时交互式体验和离线批处理采样模式,支持优化的KV缓存管理和多种注意力机制后端,通过高性能生成高质量的视频。
• 显卡:推荐使用显存 40GB 及以上的 NVIDIA 显卡;NVIDIA B200 显卡在 4 个推理步骤下可实现 11 fps 生成速度;H100、RTX 5xxx 系列显卡同样适用。
• 操作系统:支持 Linux 系统, 推荐使用Ubuntu。
• Python 版本:需使用 3.11 及以上版本。
• 存储:模型检查点需占用约 30GB 存储空间。
1、创建虚拟环境
执行 uv sync 命令,完成虚拟环境创建。
2、安装注意力后端
针对不同显卡型号,安装方式有所区别:
• NVIDIA B200 显卡(推荐使用):执行 uv pip install flash_attn --no-build-isolation。
• H100/RTX 5xxx 及其他型号显卡:可执行 uv pip install libs/sageattention-2.2.1-cp311-cp311-linux_x86_64.whl,也能运行 bash install_sage.sh 脚本安装。
需注意,SageAttention 2++ 和 3 版本未经过测试,使用可能导致生成质量下降。
3、安装 FFmpeg
依次执行 sudo apt update 和 sudo apt install ffmpeg 命令,完成 FFmpeg 安装。
4、下载模型检查点
• 基础模型:运行 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir-use-symlinks False --local-dir wan_models/Wan2.1-T2V-1.3B。
• Krea Realtime 模型:运行 huggingface-cli download krea/krea-realtime-video krea-realtime-video-14b.safetensors --local-dir checkpoints。
通过启动 WebSocket 服务器,实现实时视频生成并以流式输出。
1、配置环境变量
设置以下环境变量:
• export MODEL_FOLDER=wan_models(指定模型文件夹)
• export CONFIG=configs/self_forcing_server_14b.yaml(配置文件路径,该步骤可选)
• export CUDA_VISIBLE_DEVICES=0(指定使用的 GPU 设备)
• export DO_COMPILE=true(启用 torch.compile 以提升性能)
2、启动服务器
执行 uvicorn release_server:app --host 0.0.0.0 --port 8000,启动服务器。
3、访问演示功能
• 健康检查:执行 curl http://localhost:8000/health 命令,检查服务器运行状态。
• Web 界面:在浏览器中打开 http://localhost:8000/,进入演示界面。
演示界面(对应 templates/release_demo.html 文件)支持输入提示词、调整生成参数、通过 WebSocket 实时流式传输视频帧。
4、配置选项说明
• 设置 DO_COMPILE=false,可关闭 torch.compile,启动速度会更快,但推理速度会变慢。
• 通过 CONFIG 变量指定自定义配置文件路径。
• 按下 Ctrl+C 可停止服务器运行。
无需 WebSocket 层,直接离线生成视频。
1、基础示例
先创建生成视频的脚本(示例脚本命名为 sample_run.py):
from pathlib import Path
from release_server import GenerateParams
from sample import sample_videos
# 配置生成参数
params = GenerateParams(
prompt="", # 每个提示词会覆盖该值
width=832,
height=480,
num_blocks=9,
seed=42,
kv_cache_num_frames=3,
)
# 定义提示词
prompts = [
"日落时分,海浪波光粼粼的超写实特写镜头。",
"霓虹灯闪烁的繁忙小巷,路面被雨水浸湿。",
]
# 生成视频
sample_videos(
prompts_list=prompts,
config_path="configs/self_forcing_dmd_will_optims.yaml",
output_dir="outputs/samples",
params=params,
save_videos=True, # 需要 FFmpeg 支持
fps=24,
)
然后执行 python sample_run.py,运行脚本生成视频。
2、关键细节
• 模型加载:当 models=None 时,模型会延迟加载;多次调用时,复用返回的 models 对象,避免重复加载。
• 输出结构:视频帧会保存到 output_dir/prompt_XXX/ 路径下;若设置 save_videos=True,视频会以 MP4 格式保存。
• 辅助工具:sample.py 文件中包含 create_grid() 和 sample_single_video() 等辅助工具,可根据需求使用。
AI学术写作助手:学术论文润色和语言优化工具
Gemini对话与提示管理扩展工具 Gemini Voyager
AI驱动的股票研究平台 Multi-Agent Investment Research Platform
AI驱动的加密货币自动化交易系统 open-nof1.ai
基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent
XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training
基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio
AI-Trader:让多个AI模型在纳斯达克100股票市场中进行完全自主的零人工干预的竞争性交易
辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI
AI 编码代理工具 deer-code,帮助开发者学习和构建智能的编码助手