返回行业动态

Google DeepMind 推出 Decoupled DiLoCo 异步训练架构,高故障率下有效吞吐量达 88%

2026/04/24 04:42
查看原文

Google DeepMind 正式推出 Decoupled DiLoCo(分布式低通信)异步训练架构。该架构将计算任务解耦为多个异步且故障隔离的“计算岛”(learner units),使大语言模型能够在地理分散的数据中心进行预训练,摆脱了传统方法对紧密同步的依赖。

在带宽方面,传统数据并行训练在跨8个数据中心时需约 198 Gbps 的互联带宽,而 Decoupled DiLoCo 将其大幅降至 0.84 Gbps,使其能够兼容标准广域网。在混沌工程测试中,面对高硬件故障率,该架构在 120 万芯片的模拟环境中保持了 88% 的有效吞吐量(goodput),远超传统方法的 27%,并具备离线节点重新上线后的“自愈”无缝整合能力。

研究团队已在四个美国区域使用 2-5 Gbps 广域网成功完成 120 亿参数模型的训练,速度较传统同步方法提升超 20 倍。此外,该架构原生支持异构硬件混训(如 TPU v6e 与 TPU v5p 混合),且未造成性能损耗。在 Gemma 4 模型实测中,其基准测试准确率为 64.1%,与基线(64.4%)差异极小,验证了该架构在提升训练韧性与降低基础设施门槛方面的显著价值。