SpeechGPT：与 ChatGPT 进行语音聊天的开源工具

SpeechGPT 允许用户通过语音与 ChatGPT 进行实时交互，集成了语音识别和语音合成功能，支持超过 100 种语言，用户可以通过语音对话学习语言、练习口语，能随时进行多语言切换。

SpeechGPT功能

1、语音识别与合成：SpeechGPT 调用微软 Azure 的语音接口，实现高质量的语音识别和合成，用户可以通过语音输入与 ChatGPT 对话，系统会将语音转换为文本并生成相应的语音回复。

2、多语言支持：支持英语、日语、法语、德语、西班牙语等多种语言，用户可以自由切换语言环境，满足不同语言学习需求。

3、本地数据存储：所有聊天数据均存储在本地浏览器中，确保用户隐私安全，与 OpenAI 的 API 交互仅限于数据库的 schema，能保证用户数据安全。

4、响应式设计：SpeechGPT 支持在手机和电脑上使用，使用界面能适配不同设备。

使用场景

语言学习：用户可以通过与 ChatGPT 的语音对话练习口语，系统能实时纠正发音和语法错误。

多语言切换：支持多种语言的自由切换，适合需要学习或使用多语言的用户。

无障碍交互：为不擅长打字的用户提供语音交互方式，降低使用门槛。

使用教程

设置OpenAI API密钥

在使用SpeechGPT之前，你需要先设置OpenAI API密钥。具体步骤如下：

1、进入应用的设置界面，选择聊天设置部分。

2、在此处输入你的OpenAI API密钥。

3、如果你尚未拥有OpenAI API密钥，可以按照相关教程获取一个。

配置Azure语音服务（可选）

如果你想使用Azure语音服务，可以按照以下步骤进行设置：

1、进入设置界面，选择语音合成部分。

2、将语音合成服务更改为Azure TTS。

3、输入你的Azure区域和Azure访问密钥。

配置亚马逊Polly（可选）

若你倾向于使用亚马逊Polly，可以按照以下步骤操作：

1、进入设置界面，选择语音合成部分。

2、将语音合成服务更改为亚马逊Polly。

3、输入你的AWS区域、AWS访问密钥ID和秘密访问密钥（该访问密钥需要具有亚马逊Polly完全访问权限）。

4、如果你没有AWS访问密钥，可以参考相关教程在AWS中创建一个IAM用户。

部署方式

使用Vercel部署

Vercel是一个便捷的部署平台，你可以通过它轻松地将SpeechGPT部署到云端，只需按照Vercel的指引进行操作，即可快速完成部署过程，让应用上线运行。

使用Docker部署

对于熟悉Docker的用户，SpeechGPT也提供了Docker部署的方式。

1、拉取Docker镜像：arm64版本。

docker pull hahahumble/speechgpt

2、运行Docker容器。

docker run -d -p 8080:8080 --name speechgpt hahahumble/speechgpt

3、访问 http://localhost:8080/ 即可使用应用。

构建并运行Docker镜像

如果你想根据自己的需求对SpeechGPT进行定制，可以自行构建Docker镜像。

1、构建Docker镜像。

docker build -t speechgpt:arm64 -f Dockerfile .

2、运行Docker容器。

docker run -d -p 8080:8080 --name=speechgpt speechgpt

3、访问 http://localhost:8080/ 即可使用应用。

SpeechGPT：与 ChatGPT 进行语音聊天的开源工具

FlashMLA专为Hopper架构GPU设计的高效解码内核

EasyRecovery 数据恢复软件

磁盘分析与清理工具 Disk Space Fan 4

Alook浏览器无广告、无推送、无新闻

Django+Vue3在线考试系统

OpenDeepSearch 开源搜索工具

TrafficMonitor 桌面悬浮窗软件，显示当前的网速、CPU 利用率和内存利用率

WizTree：快速定位硬盘大文件工具

KubeSphere：Kubernetes 容器平台，集成 Jenkins 与 Argo CD，提供多租户与微服务管理

AnimeGamer动漫生活模拟器，能根据指令生成动态动画和角色状态

OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目，使用 OpenAI Speech API 将文本转换成语音

ChatGPT

插件化、定制化、无广告的免费音乐播放器 MusicFree

Reubah 基于网页的图像处理与文档转换工具

Ward服务器监控工具

Escrcpy ：基于 Scrcpy 的图形化安卓手机投屏+控制软件，支持Windows、macOS、Linux

KrillinAI 基于LLMs的本地视频翻译、配音和语音克隆的工具

MarkitDown：可以将PDF，PPT，word，Excel、图片、音频、html、csv 等转化成Markdown格式

Together Open Deep Research由AI驱动的深度研究工具，能生成含引用的综合性报告

LLManager 用于管理审批请求的 LangGraph 工作流

Python A2A：Google A2A协议的Python实现，集成MCP，用于构建可互操作的多智能体系统

OpenAI.fm 基于 OpenAI Text-to-Speech 模型的交互式演示项目，使用 OpenAI Speech API 将文本转换成语音