Local Whisper 实时语音转录

Local Whisper使用FastRTC和本地Whisper模型，实现快速实时的语音转录功能。FastRTC负责处理实时音频流，ASR模型通过Transformers库实现语音到文本的转换。Local Whisper支持多种配置，用户可以根据需求调整音频流、语音活动检测（VAD）等参数。

系统要求

Python版本需大于等于3.10

需要安装ffmpeg

安装步骤

1、克隆仓库

使用以下命令克隆项目到本地：

git clone https://github.com/sofi444/realtime-transcription-fastrtc
cd realtime-transcription-fastrtc

2、设置环境

用户可以选择使用UV或pip来管理依赖包：

使用UV（推荐）

uv venv --python 3.11 && source .venv/bin/activate
uv pip install -r requirements.txt

使用pip

python -m venv .venv && source .venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

3、安装ffmpeg

根据操作系统不同，安装ffmpeg的命令也有所不同：

macOS

brew install ffmpeg

Linux（Ubuntu/Debian）

sudo apt update
sudo apt install ffmpeg

4、配置环境

在项目根目录下创建一个.env文件，内容如下：

UI_MODE = fastapi
APP_MODE = local
SERVER_NAME = localhost

UI_MODE控制使用的界面类型。如果设置为gradio，应用将通过Gradio启动并使用其默认界面。如果设置为其他值（如fastapi），则使用根目录下的index.html文件。

项目特点

实时音频流处理：通过FastRTC实现高效的音频流传输。

本地语音识别：使用开源的Whisper模型进行语音到文本的转换，保护数据隐私。

灵活配置：用户可以根据需求调整音频流和语音活动检测的参数。

使用场景

Local Whisper适用于需要实时语音转录的场景，如在线会议、语音助手、语音笔记等，通过本地化的语音识别，可以保障用户数据的安全性和隐私性。

▶ 访问

AI智能实时语音控制编排工具 Big Three Realtime Agents

蛐蛐 QuQu 开源免费中文智能语音工具

轻量高音质文本转语音模型 Kitten TTS，仅用1500万参数实现高质量的语音合成

基于 OpenAI Text-to-Speech 模型的使用 OpenAI Speech API 将文本转换成语音工具OpenAI.fm

AudioX音频处理工具库，基于扩散Transformer模型，可根据文本、视频、图像、音乐或音频等生成音频或音乐

Local Whisper 实时语音转录

Orpheus TTS 基于Llama-3b的开源文本转语音系统

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

端到端自主AI科研引擎 NanoResearch

从零使用纯Python实现OpenAI的GPT-OSS大型语言模型

基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent

AI 编码代理工具 deer-code，帮助开发者学习和构建智能的编码助手

自主数据科学代理大型语言模型 DeepAnalyze

DeepSeek-OCR 实时光学字符识别服务 DeepSeek-OCR Client

浏览器本地AI助手 NativeMind，支持跨标签页上下文感知、AI驱动的本地搜索、网页内容智能摘要、多语言翻译以及可自定义的快速操作

可直接和AI对话的电子书阅读器 SageRead

跨端跨框架的企业级 UI 组件 TinyVue

旅行AI助手Voyant Travel Assistant

AI代理变成工具Catnip

PAI 个人AI生活工作编排框架