科学工具
科学工具让世界更美好
让世界更美好

评估AI代理在复杂、动态和现实世界任务中表现的研究平台 Meta Agents Research Environments

Meta Agents Research Environments (ARE) 是一评估AI代理在复杂、动态和现实世界任务中表现的研究平台,通过提供随时间演变的情景,弥补了传统静态基准的不足,集成了Gaia2基准测试,包含800个跨多个领域的动态情景,能全面衡量代理的各项能力。ARE 提供了一个交互式Web图形用户界面(GUI),支持情景探索、实时代理监控,通过“Playground”和“Scenarios”模式(包含DAG可视化)进行结构化任务执行,采用ReAct框架的代理、提供API的交互式应用(Apps)、促使环境变化的事件,以及由这些元素构成的完整情景(Scenarios),通过LiteLLM支持灵活配置多种AI模型提供商。

ARE通过以下特性,解决AI智能体评估领域的关键问题:

动态环境:场景会随时间变化,新信息不断出现、条件持续调整。

多步推理:任务复杂,完成需10步以上操作,耗时通常达数分钟。

现实导向:场景设定基于实际情况,还原真实世界中的各类挑战。

全面评估:搭载的Gaia2基准测试涵盖多个领域,包含800个测试场景。

ARE 安装部署

首先需要安装uv,这是一款快速的Python包安装和解析工具。

安装

1、通过uvx快速启动:这是最快的上手方式,可直接运行命令:

• 运行Gaia2基准测试场景:uvx --from meta-agents-research-environments are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 1

• 运行自定义场景:uvx --from meta-agents-research-environments are-run -s scenario_tutorial -a default

说明:文档及README中的所有命令都能通过uvx执行。

2、传统安装方式:也可直接安装包文件:

• 推荐用uv:uv pip install meta-agents-research-environments

• 用pip:pip install meta-agents-research-environments

启动入口

入口名称 具体功能
快速启动指南 提供分步说明,几分钟内就能开启首个测试场景
Gaia2评估 构建智能体并在Gaia2基准测试中评估,该测试包含10个领域、800个动态场景
Gaia2博客文章 在Hugging Face博客中了解更多Gaia2相关信息
研究论文 阅读详细介绍Gaia2基准测试及评估方法的论文
在线演示 在Hugging Face上尝试ARE演示,无需安装,浏览器内就能直接体验平台
Gaia2排行榜 查看Gaia2基准测试运行后自行发布的结果
深度学习 深入了解智能体、环境、应用、事件和场景的核心概念

命令和配置

基础命令

安装完成后,可使用以下命令行工具:

运行单个场景are-run -s scenario_find_image_file -a default

基准测试评估are-benchmark run -d /path/to/scenarios --agent default --limit 10

Gaia2评估are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 5

交互式GUIare-gui -s scenario_find_image_file,启动后通常运行于http://localhost:8080

交互式GUI功能

GUI提供基于网页的界面,支持交互式场景探索和智能体实时监控,包含两种视图模式:

实验模式:类聊天界面,可直接与智能体交互

场景模式:结构化任务执行与评估,附带DAG可视化功能

模型配置

ARE通过LiteLLM支持多个AI模型提供商,以下为两种常见配置示例:

1、Llama API

export LLAMA_API_KEY="your-api-key"
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model Llama-3.1-70B-Instruct --provider llama-api --agent default

2、本地部署

are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model your-local-model --provider local \
  --endpoint "http://localhost:8000" --agent default

所有命令后添加--help,就能查看全部可用选项。

Gaia2基准测试示例

# 配置模型
export LLAMA_API_KEY="your-api-key"

# 运行验证集测试配置
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model meta-llama/Llama-3.3-70B-Instruct --model_provider novita \
  --agent default --limit 10 --output_dir ./validation_results

# 运行完整Gaia2评估以提交至排行榜
are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 \
  --model Llama-3.1-70B-Instruct --provider llama-api \
  --agent default --output_dir ./gaia2_results \
  --hf_upload my-org/gaia2-results