返回行业动态

AI2发布研究:混合架构语言模型在语义类词元预测上优于纯Transformer

2026/06/25 16:13
查看原文

OmniTools 6月26日消息,艾伦人工智能研究所(AI2)在Hugging Face博客发布技术报告,系统对比了7B参数规模的Olmo Hybrid混合架构模型与Olmo 3纯Transformer模型在词元级预测能力上的差异。研究发现,混合模型在名词、动词、形容词等承载语义的“内容词”上表现更优,平均损失差达0.04;而在“功能词”上优势缩小至约0.02。

报告指出,混合模型的优势集中于需上下文推理的场景,例如代词指代消解;但在直接复现前文已出现词元的任务中,其优势几乎消失,此时纯Transformer凭借注意力机制的精确回溯能力更具优势。实验覆盖英文文本、代码及标记语言等多种输入类型。

该研究提出基于词元类别的“过滤损失”评估方法,可更精细揭示不同架构的预训练行为差异。相关技术报告已发布于arXiv(编号2606.20936),模型及数据集均开源。