返回行业动态

Google DeepMind 发布 Gemini Robotics-ER 1.6:增强具身推理与仪表读取能力

2026/04/15 11:12
查看原文

Google DeepMind 发布了 Gemini Robotics-ER 1.6,这是其具身推理模型的重大升级。该模型作为机器人的“认知大脑”,专注于视觉与空间理解、任务规划和成功检测等关键推理能力,而不直接控制机械肢体。DeepMind 采用双模型架构,由 Gemini Robotics-ER 负责高层策略,Gemini Robotics 1.5(VLA模型)负责执行物理动作。

新版本最大的亮点是新增了仪表读取能力,这是与 Boston Dynamics 合作开发的。借助 Boston Dynamics 的 Spot 机器狗,该模型能够识别工业环境中的模拟仪表、压力计和视镜等。在仪表读取任务中,结合智能体视觉能力,Gemini Robotics-ER 1.6 的准确率达到 93%,远高于前代 1.5 版本的 23% 和 Gemini 3.0 Flash 的 67%。

此外,Gemini Robotics-ER 1.6 在空间推理、多视角成功检测方面也有显著提升。其“指向”能力不仅能进行精确的像素级目标检测,还支持关系逻辑、运动轨迹映射和约束推理。多视角推理能力的增强使其能更好地融合多个摄像头的信息,在遮挡或动态环境中准确判断任务是否完成,从而实现真正的自主决策。