科学工具
科学工具让世界更美好
让世界更美好

测试阶段控制大语言模型推理速度的通用框架 AlphaOne 使用指南测试阶段控制大语言模型推理速度的通用框架 AlphaOne 使用指南

AlphaOne(α1)是一个通用框架,能在测试阶段调节大型推理模型(LRMs)的推理过程,首次引入了α时刻的概念,用通用参数α来衡量思考阶段,在这个按比例缩放的前α时刻阶段,框架通过把推理转换标记的插入建模为伯努利随机过程,来动态安排慢思考的转换,过了α时刻后,α1会用思考结束标记确定性地终止慢思考,然后推动快速推理和生成高效答案。该方法统一推广了现有的单调缩放方法,能实现灵活密集的慢到快推理调节,为推理能力和计算效率的联合优化提供了参考方案。

AlphaOne 安装

安装AlphaOne环境可参考以下步骤。

创建并激活conda环境:

conda create -n alphaone python=3.10
conda activate alphaone

安装所需的依赖:

cd eval/latex2sympy
pip install -e .

cd ..
pip install -r requirements.txt 
pip install vllm==0.5.1 --no-build-isolation
pip install transformers==4.42.3

完成这些步骤后,就可以启动α1 LRMs了。

AlphaOne使用

建议在运行评估脚本时进行输出重定向:

nohup bash ./scripts/alphaone/eval_linear_deepseek_7b.sh >> deepseek-7b-alpha-1.4.log &

这样做方便实时监控进度,也能跟踪多次运行的情况。

模型评估方法

提供了评估脚本,用于在数学和科学基准上评估α1 LRMs,这些基准包括AIME24、AMC23、Minerva-Math、MATH500和OlympiadBench等。

不同模型的评估方式

DeepSeek-R1-Distill-Qwen-1.5B

cd AlphaOne/eval
./scripts/alphaone/eval_linear_deepseek_1_5b.sh

DeepSeek-R1-Distill-Qwen-7B

cd AlphaOne/eval
./scripts/alphaone/eval_linear_deepseek_7b.sh

Qwen QwQ-32B

cd AlphaOne/eval
./scripts/alphaone/eval_linear_qwq.sh

LiveCodeBench(专注于代码生成和执行):

./scripts/alphaone/eval_linear_code.sh

如果要评估基线模型,可以参考docs/BASELINE.md中的详细说明。