XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-TrainingMiMo-Audio-Training 是一个专门微调XiaomiMiMo/MiMo-Audio-7B-Instruct模型的工具包,它提供一个参考实现,能帮助研究人员和开发者将其MiMo-Audio模型适配到各类自定义任务中。MiMo-Audio-Training 支持包括自动语音识别(ASR)、文本转语音(TTS/InstructTTS)、音频理解与推理以及语音对话在内的多种监督式微调(SFT)任务。MiMo-Audio-Training 通过数据预处理指导、支持单/多GPU训练的脚本简化了模型训练流程,用户可利用generate.py进行推理,结合MiMo-Audio-Eval工具进行评估。
MiMo-Audio-Training 支持多种SFT(监督微调)任务,包括:
• ASR(自动语音识别)
• TTS / InstructTTS(文本转语音/指令文本转语音)
• 音频理解与推理
• 口语对话
• Python 3.12
• CUDA版本不低于12.0
1、克隆仓库并同步子模块,执行命令:git clone --recurse-submodules https://github.com/XiaomiMiMo/MiMo-Audio-Training
2、进入工具包目录:cd MiMo-Audio-Training
3、安装依赖文件:pip install -r requirements.txt
4、安装flash-attn:pip install flash-attn==2.7.4.post1
5、以可编辑模式安装工具包:pip install -e .
若flash-attn编译耗时过长,可手动下载预编译wheel文件安装。先获取预编译wheel文件,再执行命令:pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl(将/path/to/替换为实际文件路径)
1、下载微调数据集,参照instruct_template.md中的说明对数据进行预处理。
2、工具包的scripts目录下提供多个训练脚本,支持单GPU和多GPU训练配置。若使用多GPU训练,进入工具包目录后执行:bash scripts/train_multiGPU_torchrun.sh
1、执行generate.py文件可进行推理操作。
2、借助 MiMo-Audio-Eval 工具,能对SFT模型展开评估。
AI学术写作助手:学术论文润色和语言优化工具
Gemini对话与提示管理扩展工具 Gemini Voyager
AI驱动的股票研究平台 Multi-Agent Investment Research Platform
AI驱动的加密货币自动化交易系统 open-nof1.ai
基于Next.js、AI SDK和Workflow DevKit构建的线索鉴定与人工审核代理工具 Lead Agent
XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training
基于DeepSeek-OCR模型的文档解析工具 DeepSeek-OCR Studio
AI-Trader:让多个AI模型在纳斯达克100股票市场中进行完全自主的零人工干预的竞争性交易
辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI
AI 编码代理工具 deer-code,帮助开发者学习和构建智能的编码助手