Google DeepMind 发布 Gemini Robotics-ER 1.6，增强具身推理与仪器读取能力

Google DeepMind 发布了 Gemini Robotics-ER 1.6，这是其具身推理模型的重要升级。该模型作为机器人的“认知大脑”，专注于视觉与空间理解、任务规划和成功检测等关键推理能力，而不直接控制机械肢体。DeepMind 采用双模型架构，Gemini Robotics 1.5 负责执行物理动作，而 ER 1.6 则作为高层策略模型提供决策支持。

新版本在空间和物理推理能力上显著提升，特别是“指向”能力，使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外，该版本引入了全新的“仪器读取”功能，这是与 Boston Dynamics 合作开发的，旨在满足工业设施巡检需求。借助 Spot 机器人采集的图像，模型能够解读模拟仪表、压力计和视液镜等复杂工业仪器。

在仪器读取任务中，结合智能体视觉能力，Gemini Robotics-ER 1.6 的准确率达到 93%，而此前的 1.5 版本（不支持智能体视觉）仅为 23%。智能体视觉允许模型通过放大图像、执行代码估算比例等中间步骤完成复杂视觉推理。同时，新版本还增强了多视角推理和成功检测能力，使机器人能在遮挡或动态环境中更准确地判断任务是否完成。