返回行业动态

Arena 发布真实世界 AI 智能体排行榜 Agent Arena

2026/06/05 22:43
查看原文

OmniTools 6月6日消息,Arena 近日上线 AI 智能体综合评估平台 Agent Arena,聚焦真实用户任务场景,覆盖代码编写、应用构建、文档分析等实际工作流,区别于传统孤立基准测试。

该榜单基于超30万项真实任务、200万次以上工具调用及4000万行代码执行数据,综合任务成功率、纠正遵从性、错误恢复能力、用户正负反馈及工具幻觉等多维信号进行动态评分。

最新排名前三为:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。