Google DeepMind发布Gemini Robotics-ER 1.6，新增工业仪表读取能力

Google DeepMind发布了Gemini Robotics-ER 1.6，这是其具身推理模型的重大升级。该模型作为机器人的“认知大脑”，专注于视觉与空间理解、任务规划和成功检测等高级推理能力，而非直接控制机械肢体。它与负责物理动作执行的视觉-语言-动作模型（VLA）形成“策略家”与“执行者”的双模型架构。

相较于前代版本，Gemini Robotics-ER 1.6在空间与物理推理能力上显著提升，特别是“指向”功能，使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外，该模型还增强了多视角推理能力，能够更好地融合多个摄像头的信息流，在遮挡或动态环境中准确判断任务完成状态。

此次最大的新增功能是仪器读取能力，这是与Boston Dynamics合作开发的。借助Spot机器狗捕获的图像，该模型能够解读模拟仪表、压力计和视镜等复杂视觉信息。在结合智能体视觉能力后，Gemini Robotics-ER 1.6的仪器读取准确率达到93%，远超Gemini 3.0 Flash的67%以及不支持智能体视觉的前代版本的23%。