返回行业动态

Hugging Face:AI评估正成为新的算力瓶颈

2026/04/29 16:48
查看原文

AI评估正成为新的算力瓶颈,其成本门槛已显著改变了能够进行评估的群体范围。Hugging Face官方博客发文指出,随着AI智能体和训练循环基准测试的兴起,评估成本急剧上升,在某些场景下甚至超过了模型训练本身的算力消耗。

在智能体评估方面,Holistic Agent Leaderboard (HAL) 在9个模型和9个基准测试上运行超2.1万次rollout花费了约4万美元,前沿模型上单次GAIA运行成本高达2,829美元。研究还发现,不同智能体架构(scaffold)的选择会导致相同任务产生高达33倍的成本差异,且高投入并不总能可靠地带来更好的性能表现。

在科学机器学习领域,The Well基准测试评估单一新架构需消耗约960个H100小时。虽然传统静态基准测试可通过子采样实现100至200倍的压缩而不损失排名保真度,但智能体基准测试最多仅能压缩2至3.5倍,而涉及模型重训的基准测试几乎无法压缩。此外,为提高评估统计可靠性而进行的重复运行,将进一步成倍推高整体算力成本。