返回行业动态

AI2发布EMO模型:端到端预训练实现专家模块自主涌现

2026/05/08 16:05
查看原文

OmniTools 5月9日消息,5月8日消息,艾伦人工智能研究所(AI2)正式发布EMO模型。该模型采用端到端预训练的混合专家(MoE)架构,旨在使模块化结构直接从数据中自主涌现,无需依赖人工定义的语义领域或先验约束。

EMO总参数量为140亿,每步激活10亿参数(8个专家),共包含128个专家。实验表明,在仅启用12.5%专家(即16个)的情况下,其在MMLU等通用基准上的性能仅下降约3个百分点,显著优于同构标准MoE模型(后者在同等稀疏度下性能急剧退化)。

该模型通过文档级路由约束实现模块化:在训练阶段强制同一文档内的所有token共享由路由器动态选出的专家子集,促使专家按语义领域(如医学、政治、影视等)形成稳定分组,而非传统MoE中常见的语法特征(如冠词、介词)聚类。目前,相关模型权重、技术报告、训练代码及交互式可视化工具均已开源。