返回行业动态

FrontierMath评测发现约三分之一题目存在致命错误,将更新修正后分数

2026/05/12 00:49
查看原文

OmniTools 5月12日消息,Epoch AI Research团队正在对FrontierMath评测基准的Tiers 1-4进行AI辅助审查,目前已标记出约三分之一题目存在致命错误,团队评估大多数标记有效。后续将开展全面人工审核,确认问题后将在修正后的数据集上重新发布评测分数。