科学工具

科学工具让世界更美好

让世界更美好

具身智能与自动驾驶VLM MiMo-Embodied

MiMo-Embodied 是一个跨跨领域的具身视觉语言模型，首次将自动驾驶与具身AI任务两大关键领域集成并开源，能显著增强模型在动态物理环境中的理解和推理能力。MiMo-Embodied在具身AI（包括任务规划、可供性预测和空间理解等17项基准测试）和自动驾驶（包括环境感知、状态预测和驾驶规划等12项基准测试）方面均展现出最先进的性能，超越了现有开源和闭源的视觉语言模型，在8项通用视觉理解基准上保持并增强了其通用能力，证明了领域专业化训练能够提升而非削弱模型的整体熟练度，能够有效处理具身导航和操作等真实世界任务。

自动驾驶相关

• 轨迹规划：当前方有蓝色卡车时，规划的轨迹会保持在当前车道内，并调整车速以匹配卡车速度。

• 环境识别：能回答图像中前方的路况信息，比如“灰色跑车在同方向车道停车；行人正在斑马线上穿行；右侧有黄色路缘的车辆；存在对向车流”。

• 车辆计数：根据图像内容统计车辆数量，例如“图像中前方有两辆汽车”。

具身智能相关

• 任务规划：基于视频内容判断智能体下一步最合理的子任务，比如“用右手握住蒸汽熨斗，按压衣物的右侧”。

• 空间认知：明确图像中物体的空间位置关系，例如“水壶在椅子左侧”“图像中距离当前位置最远的物体是窗户”。

• 自由区域识别：精准定位图像中特定物体之间的自由区域坐标，例如识别黄色杯子与纸板箱之间的空闲区域，输出对应的坐标点集合。

• 状态预测：根据多段视频内容判断车辆等物体的状态。

通用视觉理解

• 物体定位：识别图像中小米汽车前灯等特定部件的位置，输出坐标信息。

• 场景分析：应对各类视觉相关的查询，覆盖物体识别、空间布局、状态判断等多个方向。

MiMo-Embodied 模型架构

MiMo-Embodied 的架构核心包含视觉Transformer与MLP投影器，通过分词器实现跨模态信息处理，最终达成具身智能与自动驾驶两大领域的跨模态融合。模型训练过程中融入了针对性的指令学习，确保在不同场景下的适配性。

MiMo-Embodied 评测

具身智能基准测试

在任务规划、功能预测、空间理解三大核心能力对应的17项基准测试中，MiMo-Embodied 表现突出。对比其他开源具身视觉语言模型，它在RoboRefit、Where2Place、RoboVQA等多个测试集上均有优势，部分指标可与闭源模型比肩。

自动驾驶基准测试

在环境感知、状态预测、驾驶规划三大能力对应的12项基准测试中，MiMo-Embodied 全面超越现有开源和闭源视觉语言模型，同时优于专用模型。在CODA-LM、Drama、nuScenes-QA等测试集上，其各项指标均处于领先水平。

通用视觉理解基准测试

8项通用视觉理解基准测试结果显示，MiMo-Embodied 不仅保留了通用能力，部分方面还实现了增强。这表明针对特定领域的训练并未削弱模型的整体性能，反而提升了综合熟练度。

以下是部分关键测试集的核心数据（部分指标标注*为采用自研评估框架得出）：

具身智能 - 功能与规划测试（部分）

模型名称	参数规模	RoboRefit	Where2Place	Part-Afford	RoboVQA
MiMo-VL	7B	68.92*	29.60*	15.98*	35.27*
Qwen2.5-VL	7B	80.42*	42.00*	42.65*	57.17*
MiMo-Embodied	7B	82.30	63.60	65.50	61.99

自动驾驶 - 多视图图像与单视图视频测试（部分）

模型名称	参数规模	DriveLM	MAPLM	nuScenes-QA	LingoQA
MiMo-VL	7B	29.76	30.95	33.94	54.80
GPT-4o	-	41.21	26.64	34.26	56.00
MiMo-Embodied	7B	57.85	74.52	56.71	69.90

MiMo-Embodied 示例

功能预测

• 问题：找出蓝色瓶子旁边、橄榄油前方的空闲区域中的一些点

• 答案：输出对应的坐标点集合（如[[x1,y1], [x2,y2], ...]）

任务规划

• 问题：基于视频进度和最后一帧观察，要继续揉面，下一步该采取什么行动？（选项：A. 把手从面团上移开 B. 把面团压平 C. 拿起面团 D. 从托盘上取面团）

• 答案：A

空间理解

• 问题：机器人夹具的位置符合以下哪项描述？（选项：A. 距离鸭子8厘米上方 B. 距离鸡蛋5厘米右侧 C. 距离最大炉灶旋钮正上方10厘米 D. 距离最左侧炉灶旋钮右侧2厘米）

• 答案：D

自动驾驶案例

• 问题：当前道路有几条车道？

• 答案：1

具身操作

• 指令：将锅盖放在锅的左侧，把粉色勺子放进锅里

• 推理：锅盖位置[581,399]，锅左侧空闲区域[337,475]；粉色勺子手柄位置[762,545]，锅内空闲区域[572,460]

• 执行：握住锅盖，移动到目标位置上方放置；握住粉色手柄，移动到目标位置上方放置

▶ 访问

具身智能与自动驾驶VLM MiMo-Embodied

ORION端到端自动驾驶框架，通过视觉语言模型指导动作生成，实现整体的自主驾驶

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PaperBanana-CN 学术配图助手

996.ICU：工作 996，生病 ICU

后台管理系统

加密货币工具

AI智能体智能社交平台 MoChat

AI驱动的“谁是卧底”社交推理游戏 LieGraph

vLLM Kunlun 昆仑 XPU 硬件插件

虚假新闻检测器

辅助软件开发任务和终端操作的命令行代理工具 Kimi CLI

14B参数实时视频生成扩散模型 Krea Realtime 14B

LLM自主推理对抗框架 HacxGPT

AI智能体工作流可视化编排工具 Open Agent Builder

HunyuanImage-3.0 多模态图像生成大模型

蜂群机场，直连原生双线路，输入优惠码享受更低折扣

AI代理变成工具Catnip

GoDuck加速器，新用户注册送 7 天免费试用

自动驾驶

数据加载中...

PowerPoint演示文稿智能生成工具 PowerPoint Slides Skill

金融 AI 新工具 FinClaw，免费提供1000+ 金融专属Skills

PPT Agent 演示文稿生成框架

端到端自主AI科研引擎 NanoResearch

CitationClaw 学术论文智能引用画像和分析报告

pi-autoresearch：pi自动化实验优化循环

OpenClaw Control Center：为OpenClaw用户（包括团队和个人）提供统一的监控和管理界面

OpenClaw Dashboard 仪表盘：让OpenClaw管理更简单

PaperBanana-CN 学术配图助手

996.ICU：工作 996，生病 ICU