科学工具
科学工具让世界更美好
让世界更美好

AI语音转优化提示词工具Talkie-CodieAI语音转优化提示词工具Talkie-Codie

Talkie-Codie利用AI驱动的语音识别技术(如Whisper)将用户的语音输入转换为文本,通过大型语言模型(如OpenAI或DeepSeek)对这些文本进行优化,生成高质量的编程提示,适用于提升沉浸式编程体验。Talkie-Codie结合了语音转文本与智能提示增强能力,支持CUDA加速以提升性能,提供用户友好的图形界面,方便配置LLM服务商、API密钥、Whisper模型大小及音频输入设备,支持命令行操作,能简化开发者通过语音与AI交互来获取代码提示的流程。

Talkie-Codie快速开始

环境要求

• Python 3.10 或更高版本 • 麦克风访问权限

音频依赖安装(重要)

运行应用前,可能需要安装系统级音频库。若遇到“PortAudio library not found”错误,可按以下指南操作:

各平台安装方法

Linux (Ubuntu/Debian)

sudo apt update
sudo apt install portaudio19-dev python3-pyaudio

macOS • 使用Homebrew:brew install portaudio

• 或使用MacPorts:sudo port install portaudio

Windows

通常通过pip install就能正常工作;若遇问题,尝试:pip install pyaudio

WSL (Windows Subsystem for Linux)

sudo apt update
sudo apt install portaudio19-dev python3-pyaudio

安装系统依赖

需重新安装sounddevice以确保正确链接:

pip uninstall sounddevice
pip install sounddevice

验证安装

测试音频库是否正确安装,可运行以下代码:

import sounddevice as sd

print("PortAudio 版本:", sd.get_portaudio_version())
print("可用设备:", sd.query_devices())

运行应用程序

1、可选:创建虚拟环境

# 使用 conda
conda create -n talkie-codie python=3.10
conda activate talkie-codie

2、CUDA支持(可选) 若有NVIDIA GPU并想使用CUDA加速,可手动安装对应pytorch版本(以sm 120架构GPU为例):

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

3、启动图形界面(自动安装依赖)

python run_gui.py

• 首次启动可能较慢,因需下载模型。可在GUI设置中配置API密钥。 • 未配置API时,应用仅使用Whisper进行音频转文本转换。

配置

所有设置都能通过GUI配置: • LLM提供商和API密钥:OpenAI 或 DeepSeek • Whisper设置:设备、模型大小、计算类型 • 音频设备:选择麦克风

命令行模式

python src/main.py

使用方法

1、选择输入设备:从下拉菜单中选麦克风

2、开始录音:点击录音按钮捕获语音

3、查看结果:查看转录文本和AI增强的提示词

4、复制输出:用复制按钮复制优化后的提示词

5、设置:通过设置按钮访问配置选项

缓存管理

# 查看缓存信息
python scripts/clear_cache.py info

# 清理缓存(需要确认)
python scripts/clear_cache.py clear

# 强制清理缓存
python scripts/clear_cache.py clear-force

依赖项

• PyQt6:现代GUI框架 • sounddevice:音频录制和播放 • faster-whisper:语音转文字转录 • scipy/numpy:科学计算 • requests:API调用的HTTP客户端

Talkie-Codie 故障排除

常见问题

未检测到音频输入 • 检查麦克风权限 • 验证设置中的设备选择 • 确保麦克风未静音

LLM API错误 • 验证API密钥是否正确 • 检查网络连接 • 确保有足够的API额度

Whisper模型下载问题 • 检查网络连接 • 验证有足够的磁盘空间 • 尝试在设置中使用不同的模型大小

WSL音频问题 • 确保使用WSL2 • 检查Windows音频服务是否运行 • 考虑直接在Windows中运行应用

其他音频问题 若sounddevice持续出问题,可尝试使用pyaudio:pip install pyaudio

注意:应用需要活跃的网络连接,用于LLM API调用和初始Whisper模型下载,正确安装音频库是音频录制功能的必要条件,否则应用无法录制语音输入。