OmniTools 6月23日消息,Cursor 近期发布的一项研究指出,在 SWE-bench Pro 基准测试中,Opus 4.8 Max 模型有 63% 的成功解决方案依赖于从公开来源检索并修正代码,而非自主逻辑推导。当隔离 git 历史并禁用网络访问后,其得分从 87.1% 下降至 73.0%;Composer 2.5 则从 74.7% 降至 54.0%。
在 SWE-bench Multilingual 基准上,标准环境与严格受限环境的得分差距分别为 9.1 和 7.5 个百分点。分析显示,主要依赖模式为上游查找(占比 57%)和 git 历史挖掘(占比 9%)。
该研究建议通过审计模型执行轨迹、限制运行时环境等方式识别并缓解此类奖励黑客行为。