AI智能实时语音控制编排工具 Big Three Realtime AgentsBig Three Realtime Agents 是一个统一的语音控制编排器,以 OpenAI 实时语音代理为核心,能无缝协调三种关键 AI 代理协同工作,利用 OpenAI 实时语音代理进行自然语音交互、任务调度和代理生命周期管理,通过 Claude Code 代理实现软件开发和文件操作,借助 Gemini 浏览器代理执行网页自动化和验证任务。Big Three Realtime Agents 采用工具化调度机制,支持代理的创建、指令发送、状态查询和文件访问,具备跨会话的持久化管理能力,通过事件流、AI 生成摘要和成本监控全面追踪所有代理的活动,所有代理能在一个可配置的工作目录下高效完成复杂任务。
Big Three Realtime Agents本质是一个语音控制的智能体调度器,整合了多个AI智能体,分别承担不同的功能:
• OpenAI Realtime Voice Agent:负责自然语音交互,同时承担智能体调度任务,是整个系统的“中枢”
• Claude Code Agentic Coder:专注软件开发与文件操作,能处理代码编写、文件创建修改等开发相关需求
• Gemini Browser Agent:主打网页自动化与验证,借助浏览器工具完成网页浏览、操作和结果验证
要使用Big Three Realtime Agents,需先完成环境配置。
• 编程语言:Python 3.11及以上版本
• 包管理工具:Astral uv(用于快速安装和运行Python包)
• API密钥:需准备OpenAI、Anthropic(Claude)、Google(Gemini)的API密钥
• 浏览器自动化工具:Playwright(后续需单独安装)
若未安装Astral uv,可通过以下命令安装:
curl -LsSf https://astral.sh/uv/install.sh | sh
1、克隆项目后,进入指定目录:
cd apps/realtime-poc
2、配置环境变量:将.env.sample文件复制为.env,并填写必要参数。其中必填API密钥包括OpenAI、Anthropic、Google(Gemini)的密钥;可选API密钥有GROQ、DEEPSEEK、ELEVENLABS(用于高级文本转语音)的密钥;还可设置ENGINEER_NAME(用于智能体交互时显示的名称)和AGENT_WORKING_DIRECTORY(智能体工作目录,留空则使用默认路径apps/content-gen)
3、安装Playwright:
playwright install
完成环境配置后,可通过以下命令启动工具:
• 语音模式(推荐,可获得完整使用体验):
uv run big_three_realtime_agents.py --voice
• 文本模式(用于测试):
uv run big_three_realtime_agents.py --input text --output text
• 带提示的自动调度:
uv run big_three_realtime_agents.py --prompt "Create a new claude code agent, and have it list all the files in the working directory"
• 使用迷你模型(速度更快、成本更低):
uv run big_three_realtime_agents.py --mini --voice
工具采用模块化架构,各组件间分工明确,通过特定工具实现交互与数据流转。从用户输入到结果反馈的整体流程如下:
1、用户通过语音或文本输入需求,信息传递至OpenAI Realtime Voice Agent
2、OpenAI Realtime Voice Agent借助多种工具(如create_agent、command_agent、list_agents等)调度其他智能体
3、Claude Code Agent接收指令后,在指定工作目录(默认apps/content-gen)完成代码编写,并将会话信息存储到agents/claude_code/目录
4、Gemini Browser Agent通过Playwright Browser执行网页浏览与验证任务,会话信息存储到agents/gemini/目录,网页截图保存至output_logs/screenshots/
5、最终结果由OpenAI Realtime Voice Agent反馈给用户
OpenAI Realtime Voice Agent提供的核心工具及作用如下:
• list_agents():查询所有活跃智能体及其状态
• create_agent(tool, type, agent_name):创建新的智能体(支持Claude Code或Gemini类型)
• command_agent(agent_name, prompt):向已存在的智能体发送指令
• delete_agent(agent_name):删除智能体会话
• check_agent_result(agent_name, operator_file_name):检查智能体执行结果
• browser_use(task, url):直接执行浏览器自动化任务
• open_file(file_path):用默认应用打开文件
• read_file(file_path):读取文件内容
• report_costs():获取API使用情况及成本信息
• 每个智能体都有唯一的会话ID,会话信息存储在注册表JSON文件中
• 会话支持跨语音交互恢复,方便用户中断后继续之前的任务
• 每个编码任务都会生成对应的操作文件,便于跟踪任务执行情况
不需要额外的复杂配置,开启后智能体自动发送事件信息:
• Claude Code Hooks(.claude/settings.json):在智能体使用工具、发送通知、停止会话等场景下自动触发
• Send Event Hook(.claude/hooks/send_event.py):将钩子事件附带AI生成的摘要转发至可观测性服务器
• OpenAI智能体集成:big_three_realtime_agents.py中的_send_observability_event工具,可发送来自语音调度器的自定义事件
• 实时事件流:包含所有工具调用、智能体创建、文件操作、浏览器动作等信息
• AI生成摘要:自动生成带上下文的事件描述,方便理解事件含义
• 会话跟踪:全程跟踪多个智能体会话的生命周期
• 成本监控:通过report_costs()工具查看API使用成本
• 聊天记录:会话停止时会保留完整的对话历史
1、克隆并运行可观测性服务器:
git clone https://github.com/disler/claude-code-hooks-multi-agent-observability
cd claude-code-hooks-multi-agent-observability
npm install && npm run dev
2、启动智能体(可观测性已默认配置):
uv run big_three_realtime_agents.py --voice
3、在浏览器打开http://localhost:3000,进入控制台查看相关信息
事件信息会自动从以下来源汇总:
• Claude Code智能体工具调用(PreToolUse、PostToolUse) • 语音调度器决策 • Gemini浏览器操作 • 会话生命周期事件
Big Three Realtime Agents 基于多种前沿的AI技术构建:
• Gemini 2.5 Computer Use:支持视觉和动作规划的浏览器自动化技术
• OpenAI Realtime API:实现自然语音交互与智能体调度
• OpenAI Sora API:提供视频生成能力
• Claude Code:用于智能体化软件开发
• Astral uv:快速Python包管理与脚本执行工具
• Tactical Agentic Coding:智能体化编码模式与最佳实践
AI学术写作助手:学术论文润色和语言优化工具
Gemini对话与提示管理扩展工具 Gemini Voyager
AI驱动的股票研究平台 Multi-Agent Investment Research Platform
AI驱动的加密货币自动化交易系统 open-nof1.ai
基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent
XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training
基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio
AI-Trader:让多个AI模型在纳斯达克100股票市场中进行完全自主的零人工干预的竞争性交易
辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI
AI 编码代理工具 deer-code,帮助开发者学习和构建智能的编码助手