DeepResearcher是通过强化学习在真实环境中扩展基于大型语言模型的深度研究代理的端到端训练框架,能利用真实的网页搜索交互来增强模型的能力。
DeepResearcher可以在huggingface-hub上使用,用户可以通过以下命令安装所需的依赖项:
git clone https://github.com/GAIR-NLP/DeepResearcher.git
conda create -n deepresearcher python=3.10
conda activate deepresearcher
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
在使用ray训练模型之前,需要先启动ray,即使只有一个节点,也需要设置PET_NODE_RANK,以下是头节点的代码:
export PET_NODE_RANK=0
ray start --head
运行以下命令启动服务器处理程序:
python ./scrl/handler/server_handler.py
在启动所有服务器处理程序后,可以在训练主机节点的配置文件中替换server_url_list,然后运行:
python ./scrl/handler/handler.py
使用以下命令训练模型:
bash train_grpo.sh
使用以下命令生成rollout:
bash evaluate.sh
可以在以下路径找到rollout文件:
./outputs/{project_name}/{experiment_name}/rollout/rollout_step_0.json
重命名并复制到:
./evaluate/{experiment_name}_result.json
然后运行以下命令计算指标:
python ./evaluate/cacluate_metrics.py {experiment_name}
可以在以下路径查看分数:
./evaluate/{experiment_name}_score.json
DeepResearcher受到了Deepseek-R1的启发,实现基于veRL和Search-r1。
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU