OmniTools 5月18日消息,IBM研究院联合Hugging Face正式推出“Open Agent Leaderboard”(开放型AI智能体评测榜单),旨在系统性评估完整AI智能体系统(含规划、记忆、工具调用、错误恢复等模块),而非仅评测底层大模型性能。
该榜单覆盖6个真实场景基准测试,包括SWE-Bench Verified(代码修复)、BrowseComp+(网络研究)、AppWorld(跨应用任务)、tau2-Bench Airline & Retail(客服)及tau2-Bench Telecom(技术支援),统一采用Exgentic协议进行标准化评估,同步报告成功率与单任务成本。
首批结果涵盖5个模型(含DeepSeek V3.2、Kimi K2.5两版开源模型)与5种智能体架构。数据显示:相同模型搭配不同智能体框架时,成功率与成本差异显著;部分通用智能体在未做任务特化调优前提下,已达到或超越专用系统水平。相关代码、数据集与方法论论文均已开源。