Arena 发布真实世界 AI 智能体排行榜 Agent Arena

OmniTools 6月6日消息，Arena 近日上线 AI 智能体综合评估平台 Agent Arena，聚焦真实用户任务场景，覆盖代码编写、应用构建、文档分析等实际工作流，区别于传统孤立基准测试。

该榜单基于超30万项真实任务、200万次以上工具调用及4000万行代码执行数据，综合任务成功率、纠正遵从性、错误恢复能力、用户正负反馈及工具幻觉等多维信号进行动态评分。

最新排名前三为：GPT-5.5 High（+10.7%）、Claude Opus 4.7 Thinking（+9.5%）、GPT-5.4 High（+8.9%）。