Google DeepMind 发布 Gemini Robotics-ER 1.6：增强具身推理与仪表读取能力

Google DeepMind 发布了 Gemini Robotics-ER 1.6，这是其具身推理模型的重大升级。该模型作为机器人的“认知大脑”，专注于视觉与空间理解、任务规划和成功检测等关键推理能力，而不直接控制机械肢体。DeepMind 采用双模型架构，由 Gemini Robotics-ER 负责高层策略，Gemini Robotics 1.5（VLA模型）负责执行物理动作。

新版本最大的亮点是新增了仪表读取能力，这是与 Boston Dynamics 合作开发的。借助 Boston Dynamics 的 Spot 机器狗，该模型能够识别工业环境中的模拟仪表、压力计和视镜等。在仪表读取任务中，结合智能体视觉能力，Gemini Robotics-ER 1.6 的准确率达到 93%，远高于前代 1.5 版本的 23% 和 Gemini 3.0 Flash 的 67%。

此外，Gemini Robotics-ER 1.6 在空间推理、多视角成功检测方面也有显著提升。其“指向”能力不仅能进行精确的像素级目标检测，还支持关系逻辑、运动轨迹映射和约束推理。多视角推理能力的增强使其能更好地融合多个摄像头的信息，在遮挡或动态环境中准确判断任务是否完成，从而实现真正的自主决策。