OmniTools 5月12日消息,Epoch AI Research团队正在对FrontierMath评测基准的Tiers 1 4进行AI辅助审查,目前已标记出约三分之一题目存在致命错误,团队评估大多数标记有效。后续将开展全面人工审核,确认问题后将在修正后的数据集上重新发布评测分数。