返回行业动态

Google DeepMind 发布 Gemini Robotics-ER 1.6,增强具身推理与仪器读取能力

2026/04/15 13:43
查看原文

Google DeepMind 发布了 Gemini Robotics-ER 1.6,这是其具身推理模型的重要升级。该模型作为机器人的“认知大脑”,专注于视觉与空间理解、任务规划和成功检测等关键推理能力,而不直接控制机械肢体。DeepMind 采用双模型架构,Gemini Robotics 1.5 负责执行物理动作,而 ER 1.6 则作为高层策略模型提供决策支持。

新版本在空间和物理推理能力上显著提升,特别是“指向”能力,使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外,该版本引入了全新的“仪器读取”功能,这是与 Boston Dynamics 合作开发的,旨在满足工业设施巡检需求。借助 Spot 机器人采集的图像,模型能够解读模拟仪表、压力计和视液镜等复杂工业仪器。

在仪器读取任务中,结合智能体视觉能力,Gemini Robotics-ER 1.6 的准确率达到 93%,而此前的 1.5 版本(不支持智能体视觉)仅为 23%。智能体视觉允许模型通过放大图像、执行代码估算比例等中间步骤完成复杂视觉推理。同时,新版本还增强了多视角推理和成功检测能力,使机器人能在遮挡或动态环境中更准确地判断任务是否完成。