OmniTools 6月20日消息,据AI HOT精选RSS报道,开源大模型GLM-5.2(753B参数,约40B活跃)在AA Intelligence Index基准测试中,综合得分仅略低于GPT-5.5与Claude Fable 5,但其幻觉率仅为28%。对比数据显示,GPT-5.5幻觉率达86%,DeepSeek V4 Pro(1.6T参数)高达94%。
在AA-Omniscience基准中,DeepSeek V4 Pro仅对6%的问题主动承认未知;而在实际代码测试中,GLM-5.2以更低耗时和推理Token消耗成功识别技术悖论,DeepSeek V4 Pro则耗时更长且输出错误答案。
分析指出,当前大模型参数规模持续扩大并未同步提升事实可靠性,反而伴随幻觉率显著上升。