UCSD与Together AI推出Parcae架构：770M参数模型性能媲美1.3B Transformer

加州大学圣地亚哥分校（UCSD）与Together AI联合推出了名为Parcae的稳定循环Transformer架构。该架构通过将层循环重新构建为动态系统并约束其稳定性条件，解决了以往循环模型中常见的残差状态爆炸和损失尖峰问题，使循环Transformer的大规模可靠训练成为可能。

Parcae采用中循环设计，将架构分为前奏、循环块和尾奏三个功能块，并借鉴Mamba和S4等状态空间模型的离散化技术，从数学设计上保证系统的稳定性。实验表明，在参数和训练数据预算相同的情况下，770M参数的Parcae模型在性能上可媲美1.3B参数的标准Transformer，即以约一半的内存占用实现同等的下游任务能力。

此外，该研究首次为层循环建立了可预测的扩展定律。研究发现，在固定的FLOP和参数预算下，计算最优训练需同步增加平均循环次数和训练令牌数。同时，测试时的循环扩展存在由训练深度设定的硬性上限，无法仅通过无限增加推理循环来无限制地提升性能。