Cognition 发布 FrontierCode 编程基准测试，维护者审核通过率最高仅 13.4%

OmniTools 6月9日消息，Cognition 近日发布 FrontierCode 基准测试，旨在重新定义 AI 编程能力评估标准。该测试由 20 多位顶级开源项目维护者手工构建，共包含 150 个任务，每个任务平均耗时超 40 小时，并依据 3000 多条真实维护规则判断生成代码是否可被合并。

测试结果显示，当前主流模型在最高难度档表现有限：Claude Opus 4.8 通过率为 13.4%，GPT-5.5 为 6.3%，其余模型普遍处于 1%–5% 区间。这意味着即便最强模型，仍有近九成代码无法通过经验丰富的开源维护者审核。

FrontierCode 同时指出，现有基准如 SWE-Bench 中超半数“通过”代码，在实际维护视角下属于不可维护的低质量输出。