返回行业动态

Cognition 发布 FrontierCode 编程基准测试,维护者审核通过率最高仅 13.4%

2026/06/09 01:34
查看原文

OmniTools 6月9日消息,Cognition 近日发布 FrontierCode 基准测试,旨在重新定义 AI 编程能力评估标准。该测试由 20 多位顶级开源项目维护者手工构建,共包含 150 个任务,每个任务平均耗时超 40 小时,并依据 3000 多条真实维护规则判断生成代码是否可被合并。

测试结果显示,当前主流模型在最高难度档表现有限:Claude Opus 4.8 通过率为 13.4%,GPT-5.5 为 6.3%,其余模型普遍处于 1%–5% 区间。这意味着即便最强模型,仍有近九成代码无法通过经验丰富的开源维护者审核。

FrontierCode 同时指出,现有基准如 SWE-Bench 中超半数“通过”代码,在实际维护视角下属于不可维护的低质量输出。