科学工具
科学工具让世界更美好
让世界更美好

具身智能与自动驾驶VLM MiMo-Embodied

MiMo-Embodied 是一个跨跨领域的具身视觉语言模型,首次将自动驾驶与具身AI任务两大关键领域集成并开源,能显著增强模型在动态物理环境中的理解和推理能力。MiMo-Embodied在具身AI(包括任务规划、可供性预测和空间理解等17项基准测试)和自动驾驶(包括环境感知、状态预测和驾驶规划等12项基准测试)方面均展现出最先进的性能,超越了现有开源和闭源的视觉语言模型,在8项通用视觉理解基准上保持并增强了其通用能力,证明了领域专业化训练能够提升而非削弱模型的整体熟练度,能够有效处理具身导航和操作等真实世界任务。

自动驾驶相关

• 轨迹规划:当前方有蓝色卡车时,规划的轨迹会保持在当前车道内,并调整车速以匹配卡车速度。

• 环境识别:能回答图像中前方的路况信息,比如“灰色跑车在同方向车道停车;行人正在斑马线上穿行;右侧有黄色路缘的车辆;存在对向车流”。

• 车辆计数:根据图像内容统计车辆数量,例如“图像中前方有两辆汽车”。

具身智能相关

• 任务规划:基于视频内容判断智能体下一步最合理的子任务,比如“用右手握住蒸汽熨斗,按压衣物的右侧”。

• 空间认知:明确图像中物体的空间位置关系,例如“水壶在椅子左侧”“图像中距离当前位置最远的物体是窗户”。

• 自由区域识别:精准定位图像中特定物体之间的自由区域坐标,例如识别黄色杯子与纸板箱之间的空闲区域,输出对应的坐标点集合。

• 状态预测:根据多段视频内容判断车辆等物体的状态。

通用视觉理解

• 物体定位:识别图像中小米汽车前灯等特定部件的位置,输出坐标信息。

• 场景分析:应对各类视觉相关的查询,覆盖物体识别、空间布局、状态判断等多个方向。

MiMo-Embodied 模型架构

MiMo-Embodied 的架构核心包含视觉Transformer与MLP投影器,通过分词器实现跨模态信息处理,最终达成具身智能与自动驾驶两大领域的跨模态融合。模型训练过程中融入了针对性的指令学习,确保在不同场景下的适配性。

MiMo-Embodied 评测

具身智能基准测试

在任务规划、功能预测、空间理解三大核心能力对应的17项基准测试中,MiMo-Embodied 表现突出。对比其他开源具身视觉语言模型,它在RoboRefit、Where2Place、RoboVQA等多个测试集上均有优势,部分指标可与闭源模型比肩。

自动驾驶基准测试

在环境感知、状态预测、驾驶规划三大能力对应的12项基准测试中,MiMo-Embodied 全面超越现有开源和闭源视觉语言模型,同时优于专用模型。在CODA-LM、Drama、nuScenes-QA等测试集上,其各项指标均处于领先水平。

通用视觉理解基准测试

8项通用视觉理解基准测试结果显示,MiMo-Embodied 不仅保留了通用能力,部分方面还实现了增强。这表明针对特定领域的训练并未削弱模型的整体性能,反而提升了综合熟练度。

以下是部分关键测试集的核心数据(部分指标标注*为采用自研评估框架得出):

具身智能 - 功能与规划测试(部分)

模型名称 参数规模 RoboRefit Where2Place Part-Afford RoboVQA
MiMo-VL 7B 68.92* 29.60* 15.98* 35.27*
Qwen2.5-VL 7B 80.42* 42.00* 42.65* 57.17*
MiMo-Embodied 7B 82.30 63.60 65.50 61.99

自动驾驶 - 多视图图像与单视图视频测试(部分)

模型名称 参数规模 DriveLM MAPLM nuScenes-QA LingoQA
MiMo-VL 7B 29.76 30.95 33.94 54.80
GPT-4o - 41.21 26.64 34.26 56.00
MiMo-Embodied 7B 57.85 74.52 56.71 69.90

MiMo-Embodied 示例

功能预测

• 问题:找出蓝色瓶子旁边、橄榄油前方的空闲区域中的一些点

• 答案:输出对应的坐标点集合(如[[x1,y1], [x2,y2], ...])

任务规划

• 问题:基于视频进度和最后一帧观察,要继续揉面,下一步该采取什么行动?(选项:A. 把手从面团上移开 B. 把面团压平 C. 拿起面团 D. 从托盘上取面团)

• 答案:A

空间理解

• 问题:机器人夹具的位置符合以下哪项描述?(选项:A. 距离鸭子8厘米上方 B. 距离鸡蛋5厘米右侧 C. 距离最大炉灶旋钮正上方10厘米 D. 距离最左侧炉灶旋钮右侧2厘米)

• 答案:D

自动驾驶案例

• 问题:当前道路有几条车道?

• 答案:1

具身操作

• 指令:将锅盖放在锅的左侧,把粉色勺子放进锅里

• 推理:锅盖位置[581,399],锅左侧空闲区域[337,475];粉色勺子手柄位置[762,545],锅内空闲区域[572,460]

• 执行:握住锅盖,移动到目标位置上方放置;握住粉色手柄,移动到目标位置上方放置