MiMo-Embodied 是一个跨跨领域的具身视觉语言模型,首次将自动驾驶与具身AI任务两大关键领域集成并开源,能显著增强模型在动态物理环境中的理解和推理能力。MiMo-Embodied在具身AI(包括任务规划、可供性预测和空间理解等17项基准测试)和自动驾驶(包括环境感知、状态预测和驾驶规划等12项基准测试)方面均展现出最先进的性能,超越了现有开源和闭源的视觉语言模型,在8项通用视觉理解基准上保持并增强了其通用能力,证明了领域专业化训练能够提升而非削弱模型的整体熟练度,能够有效处理具身导航和操作等真实世界任务。
• 轨迹规划:当前方有蓝色卡车时,规划的轨迹会保持在当前车道内,并调整车速以匹配卡车速度。
• 环境识别:能回答图像中前方的路况信息,比如“灰色跑车在同方向车道停车;行人正在斑马线上穿行;右侧有黄色路缘的车辆;存在对向车流”。
• 车辆计数:根据图像内容统计车辆数量,例如“图像中前方有两辆汽车”。
• 任务规划:基于视频内容判断智能体下一步最合理的子任务,比如“用右手握住蒸汽熨斗,按压衣物的右侧”。
• 空间认知:明确图像中物体的空间位置关系,例如“水壶在椅子左侧”“图像中距离当前位置最远的物体是窗户”。
• 自由区域识别:精准定位图像中特定物体之间的自由区域坐标,例如识别黄色杯子与纸板箱之间的空闲区域,输出对应的坐标点集合。
• 状态预测:根据多段视频内容判断车辆等物体的状态。
• 物体定位:识别图像中小米汽车前灯等特定部件的位置,输出坐标信息。
• 场景分析:应对各类视觉相关的查询,覆盖物体识别、空间布局、状态判断等多个方向。
MiMo-Embodied 的架构核心包含视觉Transformer与MLP投影器,通过分词器实现跨模态信息处理,最终达成具身智能与自动驾驶两大领域的跨模态融合。模型训练过程中融入了针对性的指令学习,确保在不同场景下的适配性。
在任务规划、功能预测、空间理解三大核心能力对应的17项基准测试中,MiMo-Embodied 表现突出。对比其他开源具身视觉语言模型,它在RoboRefit、Where2Place、RoboVQA等多个测试集上均有优势,部分指标可与闭源模型比肩。
在环境感知、状态预测、驾驶规划三大能力对应的12项基准测试中,MiMo-Embodied 全面超越现有开源和闭源视觉语言模型,同时优于专用模型。在CODA-LM、Drama、nuScenes-QA等测试集上,其各项指标均处于领先水平。
8项通用视觉理解基准测试结果显示,MiMo-Embodied 不仅保留了通用能力,部分方面还实现了增强。这表明针对特定领域的训练并未削弱模型的整体性能,反而提升了综合熟练度。
以下是部分关键测试集的核心数据(部分指标标注*为采用自研评估框架得出):
| 模型名称 | 参数规模 | RoboRefit | Where2Place | Part-Afford | RoboVQA |
|---|---|---|---|---|---|
| MiMo-VL | 7B | 68.92* | 29.60* | 15.98* | 35.27* |
| Qwen2.5-VL | 7B | 80.42* | 42.00* | 42.65* | 57.17* |
| MiMo-Embodied | 7B | 82.30 | 63.60 | 65.50 | 61.99 |
| 模型名称 | 参数规模 | DriveLM | MAPLM | nuScenes-QA | LingoQA |
|---|---|---|---|---|---|
| MiMo-VL | 7B | 29.76 | 30.95 | 33.94 | 54.80 |
| GPT-4o | - | 41.21 | 26.64 | 34.26 | 56.00 |
| MiMo-Embodied | 7B | 57.85 | 74.52 | 56.71 | 69.90 |
• 问题:找出蓝色瓶子旁边、橄榄油前方的空闲区域中的一些点
• 答案:输出对应的坐标点集合(如[[x1,y1], [x2,y2], ...])
• 问题:基于视频进度和最后一帧观察,要继续揉面,下一步该采取什么行动?(选项:A. 把手从面团上移开 B. 把面团压平 C. 拿起面团 D. 从托盘上取面团)
• 答案:A
• 问题:机器人夹具的位置符合以下哪项描述?(选项:A. 距离鸭子8厘米上方 B. 距离鸡蛋5厘米右侧 C. 距离最大炉灶旋钮正上方10厘米 D. 距离最左侧炉灶旋钮右侧2厘米)
• 答案:D
• 问题:当前道路有几条车道?
• 答案:1
• 指令:将锅盖放在锅的左侧,把粉色勺子放进锅里
• 推理:锅盖位置[581,399],锅左侧空闲区域[337,475];粉色勺子手柄位置[762,545],锅内空闲区域[572,460]
• 执行:握住锅盖,移动到目标位置上方放置;握住粉色手柄,移动到目标位置上方放置
PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill
金融 AI 新工具 FinClaw,免费提供1000+ 金融专属Skills
PPT Agent 演示文稿生成框架
端到端自主AI科研引擎 NanoResearch
CitationClaw 学术论文智能引用画像和分析报告
pi-autoresearch:pi自动化实验优化循环
OpenClaw Control Center:为OpenClaw用户(包括团队和个人)提供统一的监控和管理界面
OpenClaw Dashboard 仪表盘:让OpenClaw管理更简单
PaperBanana-CN 学术配图助手
996.ICU:工作 996, 生病 ICU