评估AI代理在复杂、动态和现实世界任务中表现的研究平台 Meta Agents Research Environments

Meta Agents Research Environments (ARE) 是一评估AI代理在复杂、动态和现实世界任务中表现的研究平台，通过提供随时间演变的情景，弥补了传统静态基准的不足，集成了Gaia2基准测试，包含800个跨多个领域的动态情景，能全面衡量代理的各项能力。ARE 提供了一个交互式Web图形用户界面（GUI），支持情景探索、实时代理监控，通过“Playground”和“Scenarios”模式（包含DAG可视化）进行结构化任务执行，采用ReAct框架的代理、提供API的交互式应用（Apps）、促使环境变化的事件，以及由这些元素构成的完整情景（Scenarios），通过LiteLLM支持灵活配置多种AI模型提供商。

ARE通过以下特性，解决AI智能体评估领域的关键问题：

动态环境：场景会随时间变化，新信息不断出现、条件持续调整。

多步推理：任务复杂，完成需10步以上操作，耗时通常达数分钟。

现实导向：场景设定基于实际情况，还原真实世界中的各类挑战。

全面评估：搭载的Gaia2基准测试涵盖多个领域，包含800个测试场景。

ARE 安装部署

首先需要安装uv，这是一款快速的Python包安装和解析工具。

安装

1、通过uvx快速启动：这是最快的上手方式，可直接运行命令：

• 运行Gaia2基准测试场景：uvx --from meta-agents-research-environments are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 1

• 运行自定义场景：uvx --from meta-agents-research-environments are-run -s scenario_tutorial -a default

说明：文档及README中的所有命令都能通过uvx执行。

2、传统安装方式：也可直接安装包文件：

• 推荐用uv：uv pip install meta-agents-research-environments

• 用pip：pip install meta-agents-research-environments

启动入口

入口名称	具体功能
快速启动指南	提供分步说明，几分钟内就能开启首个测试场景
Gaia2评估	构建智能体并在Gaia2基准测试中评估，该测试包含10个领域、800个动态场景
Gaia2博客文章	在Hugging Face博客中了解更多Gaia2相关信息
研究论文	阅读详细介绍Gaia2基准测试及评估方法的论文
在线演示	在Hugging Face上尝试ARE演示，无需安装，浏览器内就能直接体验平台
Gaia2排行榜	查看Gaia2基准测试运行后自行发布的结果
深度学习	深入了解智能体、环境、应用、事件和场景的核心概念

命令和配置

基础命令

安装完成后，可使用以下命令行工具：

运行单个场景：are-run -s scenario_find_image_file -a default

基准测试评估：are-benchmark run -d /path/to/scenarios --agent default --limit 10

Gaia2评估：are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 5

交互式GUI：are-gui -s scenario_find_image_file，启动后通常运行于http://localhost:8080

交互式GUI功能

GUI提供基于网页的界面，支持交互式场景探索和智能体实时监控，包含两种视图模式：

实验模式：类聊天界面，可直接与智能体交互

场景模式：结构化任务执行与评估，附带DAG可视化功能

模型配置

ARE通过LiteLLM支持多个AI模型提供商，以下为两种常见配置示例：

1、Llama API：

export LLAMA_API_KEY="your-api-key"
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model Llama-3.1-70B-Instruct --provider llama-api --agent default

2、本地部署：

are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model your-local-model --provider local \
  --endpoint "http://localhost:8000" --agent default

所有命令后添加--help，就能查看全部可用选项。

Gaia2基准测试示例

# 配置模型
export LLAMA_API_KEY="your-api-key"

# 运行验证集测试配置
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
  --model meta-llama/Llama-3.3-70B-Instruct --model_provider novita \
  --agent default --limit 10 --output_dir ./validation_results

# 运行完整Gaia2评估以提交至排行榜
are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 \
  --model Llama-3.1-70B-Instruct --provider llama-api \
  --agent default --output_dir ./gaia2_results \
  --hf_upload my-org/gaia2-results

▶ 访问