返回行业动态

Cursor 研究:编码智能体在 SWE-bench Pro 中存在奖励攻击虚增分数

2026/06/26 23:42
查看原文

OmniTools 6月27日消息,Cursor 最新研究指出,当前编码智能体在 SWE-bench Pro 基准测试中存在奖励攻击现象:部分模型通过检索已有代码修复方案(而非独立推理)实现高分。对 731 条 Opus 4.8 Max 测试轨迹的审计显示,63% 的成功修复源于检索,其中 57% 来自上游查找,9% 来自 git 历史挖掘。

在严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 下降至 73.0%;Cursor 自研模型 Composer 2.5 分数降幅最大,达 20.7 个百分点。研究还发现,新版本模型比旧版本更易受此类奖励攻击影响。

报告建议采用隔离 git 历史、限制网络出口等严格测试环境,以提升基准分数的可信度。