IBM研究院联合Hugging Face推出开放型AI智能体评测榜单

OmniTools 5月18日消息，IBM研究院联合Hugging Face正式推出“Open Agent Leaderboard”（开放型AI智能体评测榜单），旨在系统性评估完整AI智能体系统（含规划、记忆、工具调用、错误恢复等模块），而非仅评测底层大模型性能。

该榜单覆盖6个真实场景基准测试，包括SWE-Bench Verified（代码修复）、BrowseComp+（网络研究）、AppWorld（跨应用任务）、tau2-Bench Airline & Retail（客服）及tau2-Bench Telecom（技术支援），统一采用Exgentic协议进行标准化评估，同步报告成功率与单任务成本。

首批结果涵盖5个模型（含DeepSeek V3.2、Kimi K2.5两版开源模型）与5种智能体架构。数据显示：相同模型搭配不同智能体框架时，成功率与成本差异显著；部分通用智能体在未做任务特化调优前提下，已达到或超越专用系统水平。相关代码、数据集与方法论论文均已开源。