AlphaOne(α1)是一个通用框架,能在测试阶段调节大型推理模型(LRMs)的推理过程,首次引入了α时刻的概念,用通用参数α来衡量思考阶段,在这个按比例缩放的前α时刻阶段,框架通过把推理转换标记的插入建模为伯努利随机过程,来动态安排慢思考的转换,过了α时刻后,α1会用思考结束标记确定性地终止慢思考,然后推动快速推理和生成高效答案。该方法统一推广了现有的单调缩放方法,能实现灵活密集的慢到快推理调节,为推理能力和计算效率的联合优化提供了参考方案。
安装AlphaOne环境可参考以下步骤。
创建并激活conda环境:
conda create -n alphaone python=3.10
conda activate alphaone
安装所需的依赖:
cd eval/latex2sympy
pip install -e .
cd ..
pip install -r requirements.txt
pip install vllm==0.5.1 --no-build-isolation
pip install transformers==4.42.3
完成这些步骤后,就可以启动α1 LRMs了。
建议在运行评估脚本时进行输出重定向:
nohup bash ./scripts/alphaone/eval_linear_deepseek_7b.sh >> deepseek-7b-alpha-1.4.log &
这样做方便实时监控进度,也能跟踪多次运行的情况。
提供了评估脚本,用于在数学和科学基准上评估α1 LRMs,这些基准包括AIME24、AMC23、Minerva-Math、MATH500和OlympiadBench等。
DeepSeek-R1-Distill-Qwen-1.5B:
cd AlphaOne/eval
./scripts/alphaone/eval_linear_deepseek_1_5b.sh
DeepSeek-R1-Distill-Qwen-7B:
cd AlphaOne/eval
./scripts/alphaone/eval_linear_deepseek_7b.sh
Qwen QwQ-32B:
cd AlphaOne/eval
./scripts/alphaone/eval_linear_qwq.sh
LiveCodeBench(专注于代码生成和执行):
./scripts/alphaone/eval_linear_code.sh
如果要评估基线模型,可以参考docs/BASELINE.md中的详细说明。