ITBench-AA发布：前沿大模型在企业级IT智能体基准测试中得分均低于50%

OmniTools 5月28日消息，据 Hugging Face 官方博客消息，人工智能评估机构 Artificial Analysis 与 IBM Research 联合推出 ITBench-AA，这是首个面向代理型（Agentic）企业 IT 任务的基准测试，首期聚焦站点可靠性工程（SRE）场景，涵盖 59 个 Kubernetes 故障诊断任务。

测试结果显示，当前所有前沿大模型在该基准上表现均未突破 50%：Claude Opus 4.7（Adaptive Reasoning, Max Effort）以 47% 位居榜首，GPT-5.5（xhigh）为 46%，Qwen3.7 Max 为 42%，其余模型得分多在 40% 以下。这表明大模型在复杂企业 IT 系统的自主运维与根因诊断方面仍存在显著能力缺口。

ITBench-AA 采用严格的召回门控精确率评分机制，仅当模型完整识别全部真实根因实体时才给予非零分。测试还发现，交互轮次增多并不直接提升准确率，部分模型因过度推理或引入无关上游机制作为假阳性，反而拉低了最终得分。开源模型在成本效益上表现突出，如 Gemma 4 31B 以更低成本实现了与部分闭源模型相近的得分。

ITBench-AA发布：前沿大模型在企业级IT智能体基准测试中得分均低于50%

想继续了解，可以看这些

查看工具研究所长文

发现更多 AI 工具

Maniana

VibeBeats

Pushary

Replay QA

100亿美元买一个中转站？Stripe看中了OpenRouter什么

1134名AI员工联名“踩刹车”：OpenAI与Anthropic罕见联手背后的开源围剿

长鑫科技3.35万亿市值背后：十年亏损366亿后，单季暴赚247亿

Grok 4.5 对比主流 AI 工具：不同需求怎么选？

Grok 4.5 使用指南：适合谁、怎么配置、有哪些坑？

Claude

Remover.video

DeepSeek

Photo to Video AI Free

VidBG Remover