阿拉伯语大模型评测榜单 QIMMA 发布：主打质量优先验证

今日，阿拉伯语大模型评测榜单 QIMMA 正式发布。与传统直接聚合现有基准不同，QIMMA 采用“质量优先”理念，在评估模型前先对基准数据进行严格质量验证。该榜单整合了 14 个源基准的 109 个子集，包含超 52,000 个样本，覆盖文化、STEM、法律、医疗、安全、诗歌与编程等 7 个领域，其中 99% 为原生阿拉伯语内容，并首次引入阿拉伯语代码评测。

QIMMA 的核心是多阶段质量验证流程。第一阶段使用 Qwen3-235B-A22B-Instruct 和 DeepSeek-V3-671B 两个模型对样本进行自动评估，低于 7/10 分的样本将被淘汰；第二阶段由阿拉伯语母语专家进行人工审核。该流程发现现有基准存在系统性质量问题，例如 ArabicMMLU 的淘汰率达 3.1%。在代码基准方面，3LM HumanEval+ 和 MBPP+ 的阿拉伯语提示词修改率分别高达 88% 和 81%。

在对 46 个开源模型的评测中，Jais-2-70B-Chat 以 65.81 的平均分位居榜首，在文化、STEM、法律和安全领域均排名第一；Qwen2.5-72B-Instruct 以 0.06 分之差紧随其后。此外，Llama-3.3-70B-Instruct 在医疗领域得分最高，Qwen3.5-27B 在编程领域领先。评测指出，编程仍是阿拉伯语专用模型的最大短板，多数该类模型在编程领域得分低于 35。