科学工具

科学工具让世界更美好

让世界更美好

XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training

MiMo-Audio-Training 是一个专门微调XiaomiMiMo/MiMo-Audio-7B-Instruct模型的工具包，它提供一个参考实现，能帮助研究人员和开发者将其MiMo-Audio模型适配到各类自定义任务中。MiMo-Audio-Training 支持包括自动语音识别（ASR）、文本转语音（TTS/InstructTTS）、音频理解与推理以及语音对话在内的多种监督式微调（SFT）任务。MiMo-Audio-Training 通过数据预处理指导、支持单/多GPU训练的脚本简化了模型训练流程，用户可利用generate.py进行推理，结合MiMo-Audio-Eval工具进行评估。

MiMo-Audio-Training 支持多种SFT（监督微调）任务，包括：

• ASR（自动语音识别）

• TTS / InstructTTS（文本转语音/指令文本转语音）

• 音频理解与推理

• 口语对话

MiMo-Audio-Training 安装使用

环境要求（Linux系统）

• Python 3.12

• CUDA版本不低于12.0

安装 MiMo-Audio-Training

1、克隆仓库并同步子模块，执行命令：git clone --recurse-submodules https://github.com/XiaomiMiMo/MiMo-Audio-Training

2、进入工具包目录：cd MiMo-Audio-Training

3、安装依赖文件：pip install -r requirements.txt

4、安装flash-attn：pip install flash-attn==2.7.4.post1

5、以可编辑模式安装工具包：pip install -e .

注意事项

若flash-attn编译耗时过长，可手动下载预编译wheel文件安装。先获取预编译wheel文件，再执行命令：pip install /path/to/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl（将/path/to/替换为实际文件路径）

MiMo-Audio-Training 训练流程

1、下载微调数据集，参照instruct_template.md中的说明对数据进行预处理。

2、工具包的scripts目录下提供多个训练脚本，支持单GPU和多GPU训练配置。若使用多GPU训练，进入工具包目录后执行：bash scripts/train_multiGPU_torchrun.sh

生成和评估

1、执行generate.py文件可进行推理操作。

2、借助 MiMo-Audio-Eval 工具，能对SFT模型展开评估。

▶ 访问

端到端自主AI科研引擎 NanoResearch

在本地云端都能部署的专属个人AI助手 CoPaw

浏览器端智能答题插件：AI 自动答题助手

vLLM Kunlun 昆仑 XPU 硬件插件

虚假新闻检测器

XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training

旅行AI助手Voyant Travel Assistant

AI Pose Transfer Studio 智能姿态迁移，能够让照片中的人物摆出任何想要的姿势

PAI 个人AI生活工作编排框架

Quests 桌面应用构建器

人物实时姿态AI监测与提醒工具 Pose Nudge

Arxiv论文智能翻译PDF生成工具ChinarXiv

蓝莓加速器

BitzNet加速器

Dragon加速器

996.ICU：工作 996，生病 ICU

开源自主代理操作系统 OpenFang

Reddit AI趋势自动化报告

智能会话和编程辅助工具 CODING-TOOL

XiaomiMiMo/MiMo-Audio-7B-Instruct模型微调工具MiMo-Audio-Training

DeepSeek-OCR 实时光学字符识别服务 DeepSeek-OCR Client

低成本实现最佳ChatGPT全栈大型语言模型平替 nanochat

Bananas 跨平台屏幕共享工具，支持 Windows、macOS 和 Linux 系统

AI漫画创作工具 AIMangaStudio

AI Pose Transfer Studio 智能姿态迁移，能够让照片中的人物摆出任何想要的姿势

移动设备控制Claude代码工具happy cli

ROMA 递归开放元代理框架

数据加载中...

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PaperBanana-CN 学术配图助手

996.ICU：工作 996，生病 ICU