Google Labs 提出“洞察策略”评估 AI 编码智能体主动性

OmniTools 6月23日消息，Google Labs 提出一种名为“洞察策略”的新评估方法，用于衡量 AI 编码智能体的主动性，而非仅依据任务完成度进行评分。该方法基于 Google 内部代码库中的 705 个 bug（对应 1178 个代码变更），通过时空近邻与语义相似度聚类，还原开发者真实的高层级目标。

初步实验显示，AI 智能体 Jules 在单轮探索下，洞察相关性评分平均达 4.5/5；当探索预算从两轮增至三轮时，Hit@5 准确率由 33% 提升至 57%。

研究团队正将该评估框架扩展至公开 GitHub 数据，并探索整合问题追踪器、开发对话等更丰富的上下文信息。