OmniTools 6月9日消息,Cognition 近日发布 FrontierCode 基准测试,旨在重新定义 AI 编程能力评估标准。该测试由 20 多位顶级开源项目维护者手工构建,共包含 150 个任务,每个任务平均耗时超 40 小时,并依据 3000 多条真实维护规则判断生成代码是否可被合并。
测试结果显示,当前主流模型在最高难度档表现有限:Claude Opus 4.8 通过率为 13.4%,GPT-5.5 为 6.3%,其余模型普遍处于 1%–5% 区间。这意味着即便最强模型,仍有近九成代码无法通过经验丰富的开源维护者审核。
FrontierCode 同时指出,现有基准如 SWE-Bench 中超半数“通过”代码,在实际维护视角下属于不可维护的低质量输出。