OmniTools 5月14日消息,AI HOT 5月14日消息,NousResearch近日提出Token Superposition Training(TST)方法,用于优化大语言模型预训练流程。该技术无需修改模型架构、优化器、分词器或训练数据,在同等计算量(FLOPs)下可实现2至3倍的训练时间加速。
TST将预训练分为两个阶段:前三分之一阶段,模型以连续token包为单位输入,对嵌入向量取平均,并配合改进的交叉熵损失预测下一个token包;后续阶段则回归标准的单token预测模式。推理时模型行为与传统预训练模型完全一致。
该方法已在参数量为270M、600M、3B的密集模型,以及1B至10B规模的混合专家(MoE)模型上完成验证。