返回行业动态

阿拉伯语大模型评测榜单 QIMMA 发布:主打质量优先验证

2026/04/21 10:12
查看原文

今日,阿拉伯语大模型评测榜单 QIMMA 正式发布。与传统直接聚合现有基准不同,QIMMA 采用“质量优先”理念,在评估模型前先对基准数据进行严格质量验证。该榜单整合了 14 个源基准的 109 个子集,包含超 52,000 个样本,覆盖文化、STEM、法律、医疗、安全、诗歌与编程等 7 个领域,其中 99% 为原生阿拉伯语内容,并首次引入阿拉伯语代码评测。

QIMMA 的核心是多阶段质量验证流程。第一阶段使用 Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B 两个模型对样本进行自动评估,低于 7/10 分的样本将被淘汰;第二阶段由阿拉伯语母语专家进行人工审核。该流程发现现有基准存在系统性质量问题,例如 ArabicMMLU 的淘汰率达 3.1%。在代码基准方面,3LM HumanEval+ 和 MBPP+ 的阿拉伯语提示词修改率分别高达 88% 和 81%。

在对 46 个开源模型的评测中,Jais-2-70B-Chat 以 65.81 的平均分位居榜首,在文化、STEM、法律和安全领域均排名第一;Qwen2.5-72B-Instruct 以 0.06 分之差紧随其后。此外,Llama-3.3-70B-Instruct 在医疗领域得分最高,Qwen3.5-27B 在编程领域领先。评测指出,编程仍是阿拉伯语专用模型的最大短板,多数该类模型在编程领域得分低于 35。