AI智能实时语音控制编排工具 Big Three Realtime Agents

Big Three Realtime Agents 是一个统一的语音控制编排器，以 OpenAI 实时语音代理为核心，能无缝协调三种关键 AI 代理协同工作，利用 OpenAI 实时语音代理进行自然语音交互、任务调度和代理生命周期管理，通过 Claude Code 代理实现软件开发和文件操作，借助 Gemini 浏览器代理执行网页自动化和验证任务。Big Three Realtime Agents 采用工具化调度机制，支持代理的创建、指令发送、状态查询和文件访问，具备跨会话的持久化管理能力，通过事件流、AI 生成摘要和成本监控全面追踪所有代理的活动，所有代理能在一个可配置的工作目录下高效完成复杂任务。

Big Three Realtime Agents本质是一个语音控制的智能体调度器，整合了多个AI智能体，分别承担不同的功能：

• OpenAI Realtime Voice Agent：负责自然语音交互，同时承担智能体调度任务，是整个系统的“中枢”

• Claude Code Agentic Coder：专注软件开发与文件操作，能处理代码编写、文件创建修改等开发相关需求

• Gemini Browser Agent：主打网页自动化与验证，借助浏览器工具完成网页浏览、操作和结果验证

要使用Big Three Realtime Agents，需先完成环境配置。

1、环境要去和相关依赖

• 编程语言：Python 3.11及以上版本

• 包管理工具：Astral uv（用于快速安装和运行Python包）

• API密钥：需准备OpenAI、Anthropic（Claude）、Google（Gemini）的API密钥

• 浏览器自动化工具：Playwright（后续需单独安装）

2、安装Astral uv

若未安装Astral uv，可通过以下命令安装：

curl -LsSf https://astral.sh/uv/install.sh | sh

3、项目初始化

1、克隆项目后，进入指定目录：

cd apps/realtime-poc

2、配置环境变量：将.env.sample文件复制为.env，并填写必要参数。其中必填API密钥包括OpenAI、Anthropic、Google（Gemini）的密钥；可选API密钥有GROQ、DEEPSEEK、ELEVENLABS（用于高级文本转语音）的密钥；还可设置ENGINEER_NAME（用于智能体交互时显示的名称）和AGENT_WORKING_DIRECTORY（智能体工作目录，留空则使用默认路径apps/content-gen）

3、安装Playwright：

playwright install

Big Three Realtime Agents 启动方式

完成环境配置后，可通过以下命令启动工具：

• 语音模式（推荐，可获得完整使用体验）：

uv run big_three_realtime_agents.py --voice

• 文本模式（用于测试）：

uv run big_three_realtime_agents.py --input text --output text

• 带提示的自动调度：

uv run big_three_realtime_agents.py --prompt "Create a new claude code agent, and have it list all the files in the working directory"

• 使用迷你模型（速度更快、成本更低）：

uv run big_three_realtime_agents.py --mini --voice

Big Three Realtime Agents 的架构设计和工作流程

架构框架

工具采用模块化架构，各组件间分工明确，通过特定工具实现交互与数据流转。从用户输入到结果反馈的整体流程如下：

1、用户通过语音或文本输入需求，信息传递至OpenAI Realtime Voice Agent

2、OpenAI Realtime Voice Agent借助多种工具（如create_agent、command_agent、list_agents等）调度其他智能体

3、Claude Code Agent接收指令后，在指定工作目录（默认apps/content-gen）完成代码编写，并将会话信息存储到agents/claude_code/目录

4、Gemini Browser Agent通过Playwright Browser执行网页浏览与验证任务，会话信息存储到agents/gemini/目录，网页截图保存至output_logs/screenshots/

5、最终结果由OpenAI Realtime Voice Agent反馈给用户

核心功能

OpenAI Realtime Voice Agent提供的核心工具及作用如下：

• list_agents()：查询所有活跃智能体及其状态

• create_agent(tool, type, agent_name)：创建新的智能体（支持Claude Code或Gemini类型）

• command_agent(agent_name, prompt)：向已存在的智能体发送指令

• delete_agent(agent_name)：删除智能体会话

• check_agent_result(agent_name, operator_file_name)：检查智能体执行结果

• browser_use(task, url)：直接执行浏览器自动化任务

• open_file(file_path)：用默认应用打开文件

• read_file(file_path)：读取文件内容

• report_costs()：获取API使用情况及成本信息

会话管理机制

• 每个智能体都有唯一的会话ID，会话信息存储在注册表JSON文件中

• 会话支持跨语音交互恢复，方便用户中断后继续之前的任务

• 每个编码任务都会生成对应的操作文件，便于跟踪任务执行情况

工作原理

不需要额外的复杂配置，开启后智能体自动发送事件信息：

• Claude Code Hooks（.claude/settings.json）：在智能体使用工具、发送通知、停止会话等场景下自动触发

• Send Event Hook（.claude/hooks/send_event.py）：将钩子事件附带AI生成的摘要转发至可观测性服务器

• OpenAI智能体集成：big_three_realtime_agents.py中的_send_observability_event工具，可发送来自语音调度器的自定义事件

可观测的内容

• 实时事件流：包含所有工具调用、智能体创建、文件操作、浏览器动作等信息

• AI生成摘要：自动生成带上下文的事件描述，方便理解事件含义

• 会话跟踪：全程跟踪多个智能体会话的生命周期

• 成本监控：通过report_costs()工具查看API使用成本

• 聊天记录：会话停止时会保留完整的对话历史

开启步骤

1、克隆并运行可观测性服务器：

git clone https://github.com/disler/claude-code-hooks-multi-agent-observability
cd claude-code-hooks-multi-agent-observability
npm install && npm run dev

2、启动智能体（可观测性已默认配置）：

uv run big_three_realtime_agents.py --voice

3、在浏览器打开http://localhost:3000，进入控制台查看相关信息

事件信息会自动从以下来源汇总：

• Claude Code智能体工具调用（PreToolUse、PostToolUse） • 语音调度器决策 • Gemini浏览器操作 • 会话生命周期事件

Big Three Realtime Agents 基于多种前沿的AI技术构建：

• Gemini 2.5 Computer Use：支持视觉和动作规划的浏览器自动化技术

• OpenAI Realtime API：实现自然语音交互与智能体调度

• OpenAI Sora API：提供视频生成能力

• Claude Code：用于智能体化软件开发

• Astral uv：快速Python包管理与脚本执行工具

• Tactical Agentic Coding：智能体化编码模式与最佳实践

▶ 访问

AI智能实时语音控制编排工具 Big Three Realtime Agents

蛐蛐 QuQu 开源免费中文智能语音工具

轻量高音质文本转语音模型 Kitten TTS，仅用1500万参数实现高质量的语音合成

基于 OpenAI Text-to-Speech 模型的使用 OpenAI Speech API 将文本转换成语音工具OpenAI.fm

AudioX音频处理工具库，基于扩散Transformer模型，可根据文本、视频、图像、音乐或音频等生成音频或音乐

Local Whisper 实时语音转录

Orpheus TTS 基于Llama-3b的开源文本转语音系统

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

vLLM Kunlun 昆仑 XPU 硬件插件

通过智能代理实时处理市场数据的AI自主交易系统OpenNof1

历史人物事件时间线生成工具 Event Deep Research

基于Web的Sora 2 视频生成与混编工作台 Sora 2 Playground

教育标准与学习数据知识图谱 Knowledge Graph，用于构建AI增强型教育应用

小火箭加速器，高速专线，一键连接，解锁TikTok和ChatGPT

浏览器本地AI助手 NativeMind，支持跨标签页上下文感知、AI驱动的本地搜索、网页内容智能摘要、多语言翻译以及可自定义的快速操作

AI漫画创作工具 AIMangaStudio

AutoDocs 代码自动化文档与智能分析工具

本地部署的AI提示词管理工具 AI Gist

语音工具

数据加载中...

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PaperBanana-CN 学术配图助手

996.ICU：工作 996，生病 ICU