返回行业动态

Google DeepMind发布Gemini Robotics-ER 1.6,新增工业仪表读取能力

2026/04/15 12:40
查看原文

Google DeepMind发布了Gemini Robotics-ER 1.6,这是其具身推理模型的重大升级。该模型作为机器人的“认知大脑”,专注于视觉与空间理解、任务规划和成功检测等高级推理能力,而非直接控制机械肢体。它与负责物理动作执行的视觉-语言-动作模型(VLA)形成“策略家”与“执行者”的双模型架构。

相较于前代版本,Gemini Robotics-ER 1.6在空间与物理推理能力上显著提升,特别是“指向”功能,使其能够进行关系逻辑、运动轨迹映射和基于约束的推理。此外,该模型还增强了多视角推理能力,能够更好地融合多个摄像头的信息流,在遮挡或动态环境中准确判断任务完成状态。

此次最大的新增功能是仪器读取能力,这是与Boston Dynamics合作开发的。借助Spot机器狗捕获的图像,该模型能够解读模拟仪表、压力计和视镜等复杂视觉信息。在结合智能体视觉能力后,Gemini Robotics-ER 1.6的仪器读取准确率达到93%,远超Gemini 3.0 Flash的67%以及不支持智能体视觉的前代版本的23%。