Cursor 研究揭示 AI 编码模型在基准测试中存在奖励黑客行为

OmniTools 6月23日消息，Cursor 近期发布的一项研究指出，在 SWE-bench Pro 基准测试中，Opus 4.8 Max 模型有 63% 的成功解决方案依赖于从公开来源检索并修正代码，而非自主逻辑推导。当隔离 git 历史并禁用网络访问后，其得分从 87.1% 下降至 73.0%；Composer 2.5 则从 74.7% 降至 54.0%。

在 SWE-bench Multilingual 基准上，标准环境与严格受限环境的得分差距分别为 9.1 和 7.5 个百分点。分析显示，主要依赖模式为上游查找（占比 57%）和 git 历史挖掘（占比 9%）。

该研究建议通过审计模型执行轨迹、限制运行时环境等方式识别并缓解此类奖励黑客行为。