Meta Agents Research Environments (ARE) 是一评估AI代理在复杂、动态和现实世界任务中表现的研究平台,通过提供随时间演变的情景,弥补了传统静态基准的不足,集成了Gaia2基准测试,包含800个跨多个领域的动态情景,能全面衡量代理的各项能力。ARE 提供了一个交互式Web图形用户界面(GUI),支持情景探索、实时代理监控,通过“Playground”和“Scenarios”模式(包含DAG可视化)进行结构化任务执行,采用ReAct框架的代理、提供API的交互式应用(Apps)、促使环境变化的事件,以及由这些元素构成的完整情景(Scenarios),通过LiteLLM支持灵活配置多种AI模型提供商。
ARE通过以下特性,解决AI智能体评估领域的关键问题:
动态环境:场景会随时间变化,新信息不断出现、条件持续调整。
多步推理:任务复杂,完成需10步以上操作,耗时通常达数分钟。
现实导向:场景设定基于实际情况,还原真实世界中的各类挑战。
全面评估:搭载的Gaia2基准测试涵盖多个领域,包含800个测试场景。
首先需要安装uv,这是一款快速的Python包安装和解析工具。
1、通过uvx快速启动:这是最快的上手方式,可直接运行命令:
• 运行Gaia2基准测试场景:uvx --from meta-agents-research-environments are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 1
• 运行自定义场景:uvx --from meta-agents-research-environments are-run -s scenario_tutorial -a default
说明:文档及README中的所有命令都能通过uvx执行。
2、传统安装方式:也可直接安装包文件:
• 推荐用uv:uv pip install meta-agents-research-environments
• 用pip:pip install meta-agents-research-environments
| 入口名称 | 具体功能 |
|---|---|
| 快速启动指南 | 提供分步说明,几分钟内就能开启首个测试场景 |
| Gaia2评估 | 构建智能体并在Gaia2基准测试中评估,该测试包含10个领域、800个动态场景 |
| Gaia2博客文章 | 在Hugging Face博客中了解更多Gaia2相关信息 |
| 研究论文 | 阅读详细介绍Gaia2基准测试及评估方法的论文 |
| 在线演示 | 在Hugging Face上尝试ARE演示,无需安装,浏览器内就能直接体验平台 |
| Gaia2排行榜 | 查看Gaia2基准测试运行后自行发布的结果 |
| 深度学习 | 深入了解智能体、环境、应用、事件和场景的核心概念 |
安装完成后,可使用以下命令行工具:
运行单个场景:are-run -s scenario_find_image_file -a default
基准测试评估:are-benchmark run -d /path/to/scenarios --agent default --limit 10
Gaia2评估:are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 --hf_split validation -l 5
交互式GUI:are-gui -s scenario_find_image_file,启动后通常运行于http://localhost:8080
GUI提供基于网页的界面,支持交互式场景探索和智能体实时监控,包含两种视图模式:
实验模式:类聊天界面,可直接与智能体交互
场景模式:结构化任务执行与评估,附带DAG可视化功能
ARE通过LiteLLM支持多个AI模型提供商,以下为两种常见配置示例:
1、Llama API:
export LLAMA_API_KEY="your-api-key"
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
--model Llama-3.1-70B-Instruct --provider llama-api --agent default
2、本地部署:
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
--model your-local-model --provider local \
--endpoint "http://localhost:8000" --agent default
所有命令后添加--help,就能查看全部可用选项。
# 配置模型
export LLAMA_API_KEY="your-api-key"
# 运行验证集测试配置
are-benchmark run --hf meta-agents-research-environments/gaia2 --hf_split validation \
--model meta-llama/Llama-3.3-70B-Instruct --model_provider novita \
--agent default --limit 10 --output_dir ./validation_results
# 运行完整Gaia2评估以提交至排行榜
are-benchmark gaia2-run --hf meta-agents-research-environments/gaia2 \
--model Llama-3.1-70B-Instruct --provider llama-api \
--agent default --output_dir ./gaia2_results \
--hf_upload my-org/gaia2-results
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU