AI2发布EMO模型：端到端预训练实现专家模块自主涌现

OmniTools 5月9日消息，5月8日消息，艾伦人工智能研究所（AI2）正式发布EMO模型。该模型采用端到端预训练的混合专家（MoE）架构，旨在使模块化结构直接从数据中自主涌现，无需依赖人工定义的语义领域或先验约束。

EMO总参数量为140亿，每步激活10亿参数（8个专家），共包含128个专家。实验表明，在仅启用12.5%专家（即16个）的情况下，其在MMLU等通用基准上的性能仅下降约3个百分点，显著优于同构标准MoE模型（后者在同等稀疏度下性能急剧退化）。

该模型通过文档级路由约束实现模块化：在训练阶段强制同一文档内的所有token共享由路由器动态选出的专家子集，促使专家按语义领域（如医学、政治、影视等）形成稳定分组，而非传统MoE中常见的语法特征（如冠词、介词）聚类。目前，相关模型权重、技术报告、训练代码及交互式可视化工具均已开源。