评测显示GLM-5.2幻觉率仅28%，显著低于GPT-5.5与DeepSeek V4 Pro

OmniTools 6月20日消息，据AI HOT精选RSS报道，开源大模型GLM-5.2（753B参数，约40B活跃）在AA Intelligence Index基准测试中，综合得分仅略低于GPT-5.5与Claude Fable 5，但其幻觉率仅为28%。对比数据显示，GPT-5.5幻觉率达86%，DeepSeek V4 Pro（1.6T参数）高达94%。

在AA-Omniscience基准中，DeepSeek V4 Pro仅对6%的问题主动承认未知；而在实际代码测试中，GLM-5.2以更低耗时和推理Token消耗成功识别技术悖论，DeepSeek V4 Pro则耗时更长且输出错误答案。

分析指出，当前大模型参数规模持续扩大并未同步提升事实可靠性，反而伴随幻觉率显著上升。