返回行业动态

伯克利RDI发布Agents' Last Exam（ALE）智能体评测基准

2026/06/16 02:16

OmniTools 6月16日消息，加州大学伯克利分校机器人与智能系统研究所（RDI）正式发布Agents' Last Exam（ALE）基准。该基准包含1500余项源自真实工作场景的任务，覆盖55个非体力职业领域。

测评结果显示，当前主流智能体（包括Fable 5、GPT-5.5与Composer 2.5）在最困难任务层级成功率均为0%；整体任务完成率相近，但单任务平均成本差异显著：Fable 5约15.70美元，GPT-5.5约3.80美元，Composer 2.5约1.33美元。其CLI子集ALE-CLI的最佳通过率仅为25.2%。

研究指出，智能体主要失败原因为未验证输出即宣告任务完成。目前，ALE数据集、评估代码及ALE-CLI子集均已开源。

相关背景

想继续了解，可以看这些

从这条动态出发，继续查看相关分析、产品详情和同主题更新。

查看工具研究所长文

从快讯延伸到产品观察、工具对比和行业分析。

发现更多 AI 工具

按能力、行业和使用场景继续筛选可用工具。

最新工具

刚收录的 AI 工具，适合顺手发现可用产品。

Maniana

通过自然语言描述快速构建应用与网站，并配套虚拟办公套件，实现从创意到上线的一体化工作流。

VibeBeats

面向咖啡馆、健身房、餐厅等线下场所的 AI 智能 DJ 与正版背景音乐服务

Pushary

AI 智能体远程审批控制面板：通过手机推送实现一键确认与多端协同

Replay QA

AI 驱动的自动化 QA 工具，通过 URL 或 GitHub 仓库自动探索应用、录制会话、发现真实 Bug 并提供根因与修复建议。