OmniTools 6月16日消息,加州大学伯克利分校机器人与智能系统研究所(RDI)正式发布Agents' Last Exam(ALE)基准。该基准包含1500余项源自真实工作场景的任务,覆盖55个非体力职业领域。
测评结果显示,当前主流智能体(包括Fable 5、GPT-5.5与Composer 2.5)在最困难任务层级成功率均为0%;整体任务完成率相近,但单任务平均成本差异显著:Fable 5约15.70美元,GPT-5.5约3.80美元,Composer 2.5约1.33美元。其CLI子集ALE-CLI的最佳通过率仅为25.2%。
研究指出,智能体主要失败原因为未验证输出即宣告任务完成。目前,ALE数据集、评估代码及ALE-CLI子集均已开源。