Google DeepMind发布了Gemini Robotics-ER 1.6,这是其具身推理模型的重要升级。该模型旨在作为机器人的“认知大脑”,专注于视觉与空间理解、任务规划和成功检测等高级推理,而非直接控制机械肢体。它采用双模型架构,与负责执行物理动作的视觉-语言-动作模型(VLA)Gemini Robotics 1.5协同工作。
相较于前代版本,Gemini Robotics-ER 1.6在空间和物理推理能力上显著提升,特别是“指向”功能,使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外,该模型还增强了多视角推理能力,能够更好地融合来自多个摄像头的信息,即使在遮挡或动态环境中也能准确判断任务是否完成。
此次最大的亮点是新增了“仪器读取”能力,这是与Boston Dynamics合作开发的,用于工业设施巡检。该功能可解读模拟仪表、压力计和视镜等复杂读数。借助智能视觉能力,Gemini Robotics-ER 1.6在仪器读取任务上的准确率达到86%,启用智能视觉后更是达到93%,远超前代版本23%的成功率。