Local Whisper使用FastRTC和本地Whisper模型,实现快速实时的语音转录功能。FastRTC负责处理实时音频流,ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置,用户可以根据需求调整音频流、语音活动检测(VAD)等参数。
系统要求
Python版本需大于等于3.10
需要安装ffmpeg
安装步骤
1、克隆仓库
使用以下命令克隆项目到本地:
git clone https://github.com/sofi444/realtime-transcription-fastrtc
cd realtime-transcription-fastrtc
2、设置环境
用户可以选择使用UV或pip来管理依赖包:
使用UV(推荐)
uv venv --python 3.11 && source .venv/bin/activate
uv pip install -r requirements.txt
使用pip
python -m venv .venv && source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt
3、安装ffmpeg
根据操作系统不同,安装ffmpeg的命令也有所不同:
macOS
brew install ffmpeg
Linux(Ubuntu/Debian)
sudo apt update
sudo apt install ffmpeg
4、配置环境
在项目根目录下创建一个.env文件,内容如下:
UI_MODE = fastapi
APP_MODE = local
SERVER_NAME = localhost
UI_MODE控制使用的界面类型。如果设置为gradio,应用将通过Gradio启动并使用其默认界面。如果设置为其他值(如fastapi),则使用根目录下的index.html文件。
项目特点
实时音频流处理:通过FastRTC实现高效的音频流传输。
本地语音识别:使用开源的Whisper模型进行语音到文本的转换,保护数据隐私。
灵活配置:用户可以根据需求调整音频流和语音活动检测的参数。
使用场景
Local Whisper适用于需要实时语音转录的场景,如在线会议、语音助手、语音笔记等,通过本地化的语音识别,可以保障用户数据的安全性和隐私性。
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU