传统大语言模型(LLM)推理受限于高带宽RDMA网络,预填充(Prefill)与解码(Decode)通常被限制在同一数据中心内。月之暗面(Moonshot AI)与清华大学研究人员近日提出Prefill-as-a-Service(PrfaaS)跨数据中心服务架构,打破这一物理限制。
该架构将长上下文预填充任务选择性卸载至独立的高算力集群,并通过商用以太网将生成的KVCache传输至本地集群进行解码。其可行性得益于混合注意力模型(如Kimi Linear、Qwen3.5等)的普及,此类架构大幅降低了KVCache的传输带宽需求,使跨数据中心传输成为可能。
基于内部1T参数混合模型的测试显示,PrfaaS架构相比同构基线,服务吞吐量提升54%,平均首字延迟(TTFT)降低50%,P90 TTFT降低64%。在同等硬件成本下,吞吐量增益约为15%。该方案仅消耗约13%的可用跨集群以太网带宽,为大规模LLM跨数据中心部署提供了高效可行的工程路径。