AI语音转优化提示词工具Talkie-Codie

Talkie-Codie利用AI驱动的语音识别技术（如Whisper）将用户的语音输入转换为文本，通过大型语言模型（如OpenAI或DeepSeek）对这些文本进行优化，生成高质量的编程提示，适用于提升沉浸式编程体验。Talkie-Codie结合了语音转文本与智能提示增强能力，支持CUDA加速以提升性能，提供用户友好的图形界面，方便配置LLM服务商、API密钥、Whisper模型大小及音频输入设备，支持命令行操作，能简化开发者通过语音与AI交互来获取代码提示的流程。

Talkie-Codie快速开始

环境要求

• Python 3.10 或更高版本 • 麦克风访问权限

音频依赖安装（重要）

运行应用前，可能需要安装系统级音频库。若遇到“PortAudio library not found”错误，可按以下指南操作：

各平台安装方法

Linux (Ubuntu/Debian)

sudo apt update
sudo apt install portaudio19-dev python3-pyaudio

macOS • 使用Homebrew：brew install portaudio

• 或使用MacPorts：sudo port install portaudio

Windows

通常通过pip install就能正常工作；若遇问题，尝试：pip install pyaudio

WSL (Windows Subsystem for Linux)

sudo apt update
sudo apt install portaudio19-dev python3-pyaudio

安装系统依赖

需重新安装sounddevice以确保正确链接：

pip uninstall sounddevice
pip install sounddevice

验证安装

测试音频库是否正确安装，可运行以下代码：

import sounddevice as sd

print("PortAudio 版本:", sd.get_portaudio_version())
print("可用设备:", sd.query_devices())

运行应用程序

1、可选：创建虚拟环境

# 使用 conda
conda create -n talkie-codie python=3.10
conda activate talkie-codie

2、CUDA支持（可选） 若有NVIDIA GPU并想使用CUDA加速，可手动安装对应pytorch版本（以sm 120架构GPU为例）：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128

3、启动图形界面（自动安装依赖）

python run_gui.py

• 首次启动可能较慢，因需下载模型。可在GUI设置中配置API密钥。 • 未配置API时，应用仅使用Whisper进行音频转文本转换。

配置

所有设置都能通过GUI配置： • LLM提供商和API密钥：OpenAI 或 DeepSeek • Whisper设置：设备、模型大小、计算类型 • 音频设备：选择麦克风

命令行模式

python src/main.py

使用方法

1、选择输入设备：从下拉菜单中选麦克风

2、开始录音：点击录音按钮捕获语音

3、查看结果：查看转录文本和AI增强的提示词

4、复制输出：用复制按钮复制优化后的提示词

5、设置：通过设置按钮访问配置选项

缓存管理

# 查看缓存信息
python scripts/clear_cache.py info

# 清理缓存（需要确认）
python scripts/clear_cache.py clear

# 强制清理缓存
python scripts/clear_cache.py clear-force

依赖项

• PyQt6：现代GUI框架 • sounddevice：音频录制和播放 • faster-whisper：语音转文字转录 • scipy/numpy：科学计算 • requests：API调用的HTTP客户端

Talkie-Codie 故障排除

常见问题

未检测到音频输入 • 检查麦克风权限 • 验证设置中的设备选择 • 确保麦克风未静音

LLM API错误 • 验证API密钥是否正确 • 检查网络连接 • 确保有足够的API额度

Whisper模型下载问题 • 检查网络连接 • 验证有足够的磁盘空间 • 尝试在设置中使用不同的模型大小

WSL音频问题 • 确保使用WSL2 • 检查Windows音频服务是否运行 • 考虑直接在Windows中运行应用

其他音频问题 若sounddevice持续出问题，可尝试使用pyaudio：pip install pyaudio

注意：应用需要活跃的网络连接，用于LLM API调用和初始Whisper模型下载，正确安装音频库是音频录制功能的必要条件，否则应用无法录制语音输入。

▶ 访问

LLM提示词优化与管理工具 PromptManager

AI Studio/Gemini提示词工具Banana Prompt Quicker

本地部署的AI提示词管理工具 AI Gist

AI语音转优化提示词工具Talkie-Codie

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

996.ICU：工作 996，生病 ICU

ClawPhD学术论文出版内容智能生成器

AI浏览器智能翻译润色笔记与知识管理工具 Flowers

本地AI写作笔记工具 WitNote

具身智能与自动驾驶VLM MiMo-Embodied

get_jobs 求职者投递简历工具

基于AI技术的桌面英语学习工具 binglish

音谷：AI多角色多情绪配音工具

GoDuck加速器，新用户注册送 7 天免费试用

Science-Star 科学智能体构建和实验平台

提示词工具

数据加载中...

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PaperBanana-CN 学术配图助手

996.ICU：工作 996，生病 ICU