Google DeepMind 推出 Decoupled DiLoCo 异步训练架构，高故障率下有效吞吐量达 88%

Google DeepMind 正式推出 Decoupled DiLoCo（分布式低通信）异步训练架构。该架构将计算任务解耦为多个异步且故障隔离的“计算岛”（learner units），使大语言模型能够在地理分散的数据中心进行预训练，摆脱了传统方法对紧密同步的依赖。

在带宽方面，传统数据并行训练在跨8个数据中心时需约 198 Gbps 的互联带宽，而 Decoupled DiLoCo 将其大幅降至 0.84 Gbps，使其能够兼容标准广域网。在混沌工程测试中，面对高硬件故障率，该架构在 120 万芯片的模拟环境中保持了 88% 的有效吞吐量（goodput），远超传统方法的 27%，并具备离线节点重新上线后的“自愈”无缝整合能力。

研究团队已在四个美国区域使用 2-5 Gbps 广域网成功完成 120 亿参数模型的训练，速度较传统同步方法提升超 20 倍。此外，该架构原生支持异构硬件混训（如 TPU v6e 与 TPU v5p 混合），且未造成性能损耗。在 Gemma 4 模型实测中，其基准测试准确率为 64.1%，与基线（64.4%）差异极小，验证了该架构在提升训练韧性与降低基础设施门槛方面的显著价值。