AI语音转优化提示词工具Talkie-CodieTalkie-Codie利用AI驱动的语音识别技术(如Whisper)将用户的语音输入转换为文本,通过大型语言模型(如OpenAI或DeepSeek)对这些文本进行优化,生成高质量的编程提示,适用于提升沉浸式编程体验。Talkie-Codie结合了语音转文本与智能提示增强能力,支持CUDA加速以提升性能,提供用户友好的图形界面,方便配置LLM服务商、API密钥、Whisper模型大小及音频输入设备,支持命令行操作,能简化开发者通过语音与AI交互来获取代码提示的流程。
• Python 3.10 或更高版本 • 麦克风访问权限
运行应用前,可能需要安装系统级音频库。若遇到“PortAudio library not found”错误,可按以下指南操作:
Linux (Ubuntu/Debian)
sudo apt update
sudo apt install portaudio19-dev python3-pyaudio
macOS
• 使用Homebrew:brew install portaudio
• 或使用MacPorts:sudo port install portaudio
Windows
通常通过pip install就能正常工作;若遇问题,尝试:pip install pyaudio
WSL (Windows Subsystem for Linux)
sudo apt update
sudo apt install portaudio19-dev python3-pyaudio
需重新安装sounddevice以确保正确链接:
pip uninstall sounddevice
pip install sounddevice
测试音频库是否正确安装,可运行以下代码:
import sounddevice as sd
print("PortAudio 版本:", sd.get_portaudio_version())
print("可用设备:", sd.query_devices())
1、可选:创建虚拟环境
# 使用 conda
conda create -n talkie-codie python=3.10
conda activate talkie-codie
2、CUDA支持(可选) 若有NVIDIA GPU并想使用CUDA加速,可手动安装对应pytorch版本(以sm 120架构GPU为例):
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
3、启动图形界面(自动安装依赖)
python run_gui.py
• 首次启动可能较慢,因需下载模型。可在GUI设置中配置API密钥。 • 未配置API时,应用仅使用Whisper进行音频转文本转换。
所有设置都能通过GUI配置: • LLM提供商和API密钥:OpenAI 或 DeepSeek • Whisper设置:设备、模型大小、计算类型 • 音频设备:选择麦克风
python src/main.py
1、选择输入设备:从下拉菜单中选麦克风
2、开始录音:点击录音按钮捕获语音
3、查看结果:查看转录文本和AI增强的提示词
4、复制输出:用复制按钮复制优化后的提示词
5、设置:通过设置按钮访问配置选项
# 查看缓存信息
python scripts/clear_cache.py info
# 清理缓存(需要确认)
python scripts/clear_cache.py clear
# 强制清理缓存
python scripts/clear_cache.py clear-force
• PyQt6:现代GUI框架 • sounddevice:音频录制和播放 • faster-whisper:语音转文字转录 • scipy/numpy:科学计算 • requests:API调用的HTTP客户端
未检测到音频输入 • 检查麦克风权限 • 验证设置中的设备选择 • 确保麦克风未静音
LLM API错误 • 验证API密钥是否正确 • 检查网络连接 • 确保有足够的API额度
Whisper模型下载问题 • 检查网络连接 • 验证有足够的磁盘空间 • 尝试在设置中使用不同的模型大小
WSL音频问题 • 确保使用WSL2 • 检查Windows音频服务是否运行 • 考虑直接在Windows中运行应用
其他音频问题
若sounddevice持续出问题,可尝试使用pyaudio:pip install pyaudio
注意:应用需要活跃的网络连接,用于LLM API调用和初始Whisper模型下载,正确安装音频库是音频录制功能的必要条件,否则应用无法录制语音输入。
AI学术写作助手:学术论文润色和语言优化工具
Gemini对话与提示管理扩展工具 Gemini Voyager
AI驱动的股票研究平台 Multi-Agent Investment Research Platform
AI驱动的加密货币自动化交易系统 open-nof1.ai
基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent
XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training
基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio
AI-Trader:让多个AI模型在纳斯达克100股票市场中进行完全自主的零人工干预的竞争性交易
辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI
AI 编码代理工具 deer-code,帮助开发者学习和构建智能的编码助手