加州大学圣地亚哥分校(UCSD)与Together AI联合推出了名为Parcae的稳定循环Transformer架构。该架构通过将层循环重新构建为动态系统并约束其稳定性条件,解决了以往循环模型中常见的残差状态爆炸和损失尖峰问题,使循环Transformer的大规模可靠训练成为可能。
Parcae采用中循环设计,将架构分为前奏、循环块和尾奏三个功能块,并借鉴Mamba和S4等状态空间模型的离散化技术,从数学设计上保证系统的稳定性。实验表明,在参数和训练数据预算相同的情况下,770M参数的Parcae模型在性能上可媲美1.3B参数的标准Transformer,即以约一半的内存占用实现同等的下游任务能力。
此外,该研究首次为层循环建立了可预测的扩展定律。研究发现,在固定的FLOP和参数预算下,计算最优训练需同步增加平均循环次数和训练令牌数。同时,测试时的循环扩展存在由训练深度设定的硬性上限,无法仅通过无限增加推理循环来无限制地提升性能。