Google DeepMind发布Gemini Robotics-ER 1.6具身推理模型

Google DeepMind发布了Gemini Robotics-ER 1.6，这是其具身推理模型的重要升级。该模型旨在作为机器人的“认知大脑”，专注于视觉与空间理解、任务规划和成功检测等高级推理，而非直接控制机械肢体。它采用双模型架构，与负责执行物理动作的视觉-语言-动作模型（VLA）Gemini Robotics 1.5协同工作。

相较于前代版本，Gemini Robotics-ER 1.6在空间和物理推理能力上显著提升，特别是“指向”功能，使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外，该模型还增强了多视角推理能力，能够更好地融合来自多个摄像头的信息，即使在遮挡或动态环境中也能准确判断任务是否完成。

此次最大的亮点是新增了“仪器读取”能力，这是与Boston Dynamics合作开发的，用于工业设施巡检。该功能可解读模拟仪表、压力计和视镜等复杂读数。借助智能视觉能力，Gemini Robotics-ER 1.6在仪器读取任务上的准确率达到86%，启用智能视觉后更是达到93%，远超前代版本23%的成功率。