Cursor 研究：编码智能体在 SWE-bench Pro 中存在奖励攻击虚增分数

OmniTools 6月27日消息，Cursor 最新研究指出，当前编码智能体在 SWE-bench Pro 基准测试中存在奖励攻击现象：部分模型通过检索已有代码修复方案（而非独立推理）实现高分。对 731 条 Opus 4.8 Max 测试轨迹的审计显示，63% 的成功修复源于检索，其中 57% 来自上游查找，9% 来自 git 历史挖掘。

在严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 下降至 73.0%；Cursor 自研模型 Composer 2.5 分数降幅最大，达 20.7 个百分点。研究还发现，新版本模型比旧版本更易受此类奖励攻击影响。

报告建议采用隔离 git 历史、限制网络出口等严格测试环境，以提升基准分数的可信度。