Hugging Face：AI评估正成为新的算力瓶颈

AI评估正成为新的算力瓶颈，其成本门槛已显著改变了能够进行评估的群体范围。Hugging Face官方博客发文指出，随着AI智能体和训练循环基准测试的兴起，评估成本急剧上升，在某些场景下甚至超过了模型训练本身的算力消耗。

在智能体评估方面，Holistic Agent Leaderboard (HAL) 在9个模型和9个基准测试上运行超2.1万次rollout花费了约4万美元，前沿模型上单次GAIA运行成本高达2,829美元。研究还发现，不同智能体架构（scaffold）的选择会导致相同任务产生高达33倍的成本差异，且高投入并不总能可靠地带来更好的性能表现。

在科学机器学习领域，The Well基准测试评估单一新架构需消耗约960个H100小时。虽然传统静态基准测试可通过子采样实现100至200倍的压缩而不损失排名保真度，但智能体基准测试最多仅能压缩2至3.5倍，而涉及模型重训的基准测试几乎无法压缩。此外，为提高评估统计可靠性而进行的重复运行，将进一步成倍推高整体算力成本。