OmniTools 6月6日消息,Arena 近日上线 AI 智能体综合评估平台 Agent Arena,聚焦真实用户任务场景,覆盖代码编写、应用构建、文档分析等实际工作流,区别于传统孤立基准测试。
该榜单基于超30万项真实任务、200万次以上工具调用及4000万行代码执行数据,综合任务成功率、纠正遵从性、错误恢复能力、用户正负反馈及工具幻觉等多维信号进行动态评分。
最新排名前三为:GPT-5.5 High(+10.7%)、Claude Opus 4.7 Thinking(+9.5%)、GPT-5.4 High(+8.9%)。