OmniTools 5月28日消息,据 Hugging Face 官方博客消息,人工智能评估机构 Artificial Analysis 与 IBM Research 联合推出 ITBench-AA,这是首个面向代理型(Agentic)企业 IT 任务的基准测试,首期聚焦站点可靠性工程(SRE)场景,涵盖 59 个 Kubernetes 故障诊断任务。
测试结果显示,当前所有前沿大模型在该基准上表现均未突破 50%:Claude Opus 4.7(Adaptive Reasoning, Max Effort)以 47% 位居榜首,GPT-5.5(xhigh)为 46%,Qwen3.7 Max 为 42%,其余模型得分多在 40% 以下。这表明大模型在复杂企业 IT 系统的自主运维与根因诊断方面仍存在显著能力缺口。
ITBench-AA 采用严格的召回门控精确率评分机制,仅当模型完整识别全部真实根因实体时才给予非零分。测试还发现,交互轮次增多并不直接提升准确率,部分模型因过度推理或引入无关上游机制作为假阳性,反而拉低了最终得分。开源模型在成本效益上表现突出,如 Gemma 4 31B 以更低成本实现了与部分闭源模型相近的得分。