科学工具
科学工具让世界更美好
让世界更美好

AI智能实时语音控制编排工具 Big Three Realtime AgentsAI智能实时语音控制编排工具 Big Three Realtime Agents

Big Three Realtime Agents 是一个统一的语音控制编排器,以 OpenAI 实时语音代理为核心,能无缝协调三种关键 AI 代理协同工作,利用 OpenAI 实时语音代理进行自然语音交互、任务调度和代理生命周期管理,通过 Claude Code 代理实现软件开发和文件操作,借助 Gemini 浏览器代理执行网页自动化和验证任务。Big Three Realtime Agents 采用工具化调度机制,支持代理的创建、指令发送、状态查询和文件访问,具备跨会话的持久化管理能力,通过事件流、AI 生成摘要和成本监控全面追踪所有代理的活动,所有代理能在一个可配置的工作目录下高效完成复杂任务。

Big Three Realtime Agents本质是一个语音控制的智能体调度器,整合了多个AI智能体,分别承担不同的功能:

• OpenAI Realtime Voice Agent:负责自然语音交互,同时承担智能体调度任务,是整个系统的“中枢”

• Claude Code Agentic Coder:专注软件开发与文件操作,能处理代码编写、文件创建修改等开发相关需求

• Gemini Browser Agent:主打网页自动化与验证,借助浏览器工具完成网页浏览、操作和结果验证

要使用Big Three Realtime Agents,需先完成环境配置。

1、环境要去和相关依赖

• 编程语言:Python 3.11及以上版本

• 包管理工具:Astral uv(用于快速安装和运行Python包)

• API密钥:需准备OpenAI、Anthropic(Claude)、Google(Gemini)的API密钥

• 浏览器自动化工具:Playwright(后续需单独安装)

2、安装Astral uv

若未安装Astral uv,可通过以下命令安装:

curl -LsSf https://astral.sh/uv/install.sh | sh

3、项目初始化

1、克隆项目后,进入指定目录:

cd apps/realtime-poc

2、配置环境变量:将.env.sample文件复制为.env,并填写必要参数。其中必填API密钥包括OpenAI、Anthropic、Google(Gemini)的密钥;可选API密钥有GROQ、DEEPSEEK、ELEVENLABS(用于高级文本转语音)的密钥;还可设置ENGINEER_NAME(用于智能体交互时显示的名称)和AGENT_WORKING_DIRECTORY(智能体工作目录,留空则使用默认路径apps/content-gen

3、安装Playwright:

playwright install

Big Three Realtime Agents 启动方式

完成环境配置后,可通过以下命令启动工具:

• 语音模式(推荐,可获得完整使用体验):

uv run big_three_realtime_agents.py --voice

• 文本模式(用于测试):

uv run big_three_realtime_agents.py --input text --output text

• 带提示的自动调度:

uv run big_three_realtime_agents.py --prompt "Create a new claude code agent, and have it list all the files in the working directory"

• 使用迷你模型(速度更快、成本更低):

uv run big_three_realtime_agents.py --mini --voice

Big Three Realtime Agents 的架构设计和工作流程

架构框架

工具采用模块化架构,各组件间分工明确,通过特定工具实现交互与数据流转。从用户输入到结果反馈的整体流程如下:

1、用户通过语音或文本输入需求,信息传递至OpenAI Realtime Voice Agent

2、OpenAI Realtime Voice Agent借助多种工具(如create_agentcommand_agentlist_agents等)调度其他智能体

3、Claude Code Agent接收指令后,在指定工作目录(默认apps/content-gen)完成代码编写,并将会话信息存储到agents/claude_code/目录

4、Gemini Browser Agent通过Playwright Browser执行网页浏览与验证任务,会话信息存储到agents/gemini/目录,网页截图保存至output_logs/screenshots/

5、最终结果由OpenAI Realtime Voice Agent反馈给用户

核心功能

OpenAI Realtime Voice Agent提供的核心工具及作用如下:

list_agents():查询所有活跃智能体及其状态

create_agent(tool, type, agent_name):创建新的智能体(支持Claude Code或Gemini类型)

command_agent(agent_name, prompt):向已存在的智能体发送指令

delete_agent(agent_name):删除智能体会话

check_agent_result(agent_name, operator_file_name):检查智能体执行结果

browser_use(task, url):直接执行浏览器自动化任务

open_file(file_path):用默认应用打开文件

read_file(file_path):读取文件内容

report_costs():获取API使用情况及成本信息

会话管理机制

• 每个智能体都有唯一的会话ID,会话信息存储在注册表JSON文件中

• 会话支持跨语音交互恢复,方便用户中断后继续之前的任务

• 每个编码任务都会生成对应的操作文件,便于跟踪任务执行情况

工作原理

不需要额外的复杂配置,开启后智能体自动发送事件信息:

• Claude Code Hooks(.claude/settings.json):在智能体使用工具、发送通知、停止会话等场景下自动触发

• Send Event Hook(.claude/hooks/send_event.py):将钩子事件附带AI生成的摘要转发至可观测性服务器

• OpenAI智能体集成:big_three_realtime_agents.py中的_send_observability_event工具,可发送来自语音调度器的自定义事件

可观测的内容

• 实时事件流:包含所有工具调用、智能体创建、文件操作、浏览器动作等信息

• AI生成摘要:自动生成带上下文的事件描述,方便理解事件含义

• 会话跟踪:全程跟踪多个智能体会话的生命周期

• 成本监控:通过report_costs()工具查看API使用成本

• 聊天记录:会话停止时会保留完整的对话历史

开启步骤

1、克隆并运行可观测性服务器:

git clone https://github.com/disler/claude-code-hooks-multi-agent-observability
cd claude-code-hooks-multi-agent-observability
npm install && npm run dev

2、启动智能体(可观测性已默认配置):

uv run big_three_realtime_agents.py --voice

3、在浏览器打开http://localhost:3000,进入控制台查看相关信息

事件信息会自动从以下来源汇总:

• Claude Code智能体工具调用(PreToolUse、PostToolUse) • 语音调度器决策 • Gemini浏览器操作 • 会话生命周期事件

Big Three Realtime Agents 基于多种前沿的AI技术构建:

• Gemini 2.5 Computer Use:支持视觉和动作规划的浏览器自动化技术

• OpenAI Realtime API:实现自然语音交互与智能体调度

• OpenAI Sora API:提供视频生成能力

• Claude Code:用于智能体化软件开发

• Astral uv:快速Python包管理与脚本执行工具

• Tactical Agentic Coding:智能体化编码模式与最佳实践