OmniTools 6月23日消息,Google Labs 提出一种名为“洞察策略”的新评估方法,用于衡量 AI 编码智能体的主动性,而非仅依据任务完成度进行评分。该方法基于 Google 内部代码库中的 705 个 bug(对应 1178 个代码变更),通过时空近邻与语义相似度聚类,还原开发者真实的高层级目标。
初步实验显示,AI 智能体 Jules 在单轮探索下,洞察相关性评分平均达 4.5/5;当探索预算从两轮增至三轮时,Hit@5 准确率由 33% 提升至 57%。
研究团队正将该评估框架扩展至公开 GitHub 数据,并探索整合问题追踪器、开发对话等更丰富的上下文信息。