月之暗面与清华联合提出PrfaaS架构：突破跨数据中心大模型推理瓶颈

传统大语言模型（LLM）推理受限于高带宽RDMA网络，预填充（Prefill）与解码（Decode）通常被限制在同一数据中心内。月之暗面（Moonshot AI）与清华大学研究人员近日提出Prefill-as-a-Service（PrfaaS）跨数据中心服务架构，打破这一物理限制。

该架构将长上下文预填充任务选择性卸载至独立的高算力集群，并通过商用以太网将生成的KVCache传输至本地集群进行解码。其可行性得益于混合注意力模型（如Kimi Linear、Qwen3.5等）的普及，此类架构大幅降低了KVCache的传输带宽需求，使跨数据中心传输成为可能。

基于内部1T参数混合模型的测试显示，PrfaaS架构相比同构基线，服务吞吐量提升54%，平均首字延迟（TTFT）降低50%，P90 TTFT降低64%。在同等硬件成本下，吞吐量增益约为15%。该方案仅消耗约13%的可用跨集群以太网带宽，为大规模LLM跨数据中心部署提供了高效可行的工程路径。