科学工具
科学工具让世界更美好
让世界更美好

XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-TrainingXiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training

MiMo-Audio-Training 是一个专门微调XiaomiMiMo/MiMo-Audio-7B-Instruct模型的工具包,它提供一个参考实现,能帮助研究人员和开发者将其MiMo-Audio模型适配到各类自定义任务中。MiMo-Audio-Training 支持包括自动语音识别(ASR)、文本转语音(TTS/InstructTTS)、音频理解与推理以及语音对话在内的多种监督式微调(SFT)任务。MiMo-Audio-Training 通过数据预处理指导、支持单/多GPU训练的脚本简化了模型训练流程,用户可利用generate.py进行推理,结合MiMo-Audio-Eval工具进行评估。

MiMo-Audio-Training 支持多种SFT(监督微调)任务,包括:

• ASR(自动语音识别)

• TTS / InstructTTS(文本转语音/指令文本转语音)

• 音频理解与推理

• 口语对话

MiMo-Audio-Training 安装使用

环境要求(Linux系统)

• Python 3.12

• CUDA版本不低于12.0

安装 MiMo-Audio-Training

1、克隆仓库并同步子模块,执行命令:git clone --recurse-submodules https://github.com/XiaomiMiMo/MiMo-Audio-Training

2、进入工具包目录:cd MiMo-Audio-Training

3、安装依赖文件:pip install -r requirements.txt

4、安装flash-attn:pip install flash-attn==2.7.4.post1

5、以可编辑模式安装工具包:pip install -e .

注意事项

若flash-attn编译耗时过长,可手动下载预编译wheel文件安装。先获取预编译wheel文件,再执行命令:pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl(将/path/to/替换为实际文件路径)

MiMo-Audio-Training 训练流程

1、下载微调数据集,参照instruct_template.md中的说明对数据进行预处理。

2、工具包的scripts目录下提供多个训练脚本,支持单GPU和多GPU训练配置。若使用多GPU训练,进入工具包目录后执行:bash scripts/train_multiGPU_torchrun.sh

生成和评估

1、执行generate.py文件可进行推理操作。

2、借助 MiMo-Audio-Eval 工具,能对SFT模型展开评估。