NousResearch推出Token Superposition Training技术，显著加速大语言模型预训练

OmniTools 5月14日消息，AI HOT 5月14日消息，NousResearch近日提出Token Superposition Training（TST）方法，用于优化大语言模型预训练流程。该技术无需修改模型架构、优化器、分词器或训练数据，在同等计算量（FLOPs）下可实现2至3倍的训练时间加速。

TST将预训练分为两个阶段：前三分之一阶段，模型以连续token包为单位输入，对嵌入向量取平均，并配合改进的交叉熵损失预测下一个token包；后续阶段则回归标准的单token预测模式。推理时模型行为与传统预训练模型完全一致。

该方法已在参数量为270M、600M、3B的密集模型，以及1B至10B规模的混合专家（MoE）模型上完成验证。