ZCube网络架构发布：提升大模型推理吞吐并降低硬件成本

OmniTools 5月21日消息，Z.ai、Harnets.AI与清华大学联合研发ZCube网络架构，旨在解决大模型推理中GPU集群网络瓶颈问题。随着长上下文处理与Prefill-Decode分离部署普及，网络已成制约推理吞吐、尾部延迟和整体成本的关键因素。

该架构采用完全扁平化拓扑与混合接入设计，从源头解耦并分散KV Cache等动态非对称流量，缓解传统静态拓扑下的局部拥塞。

在GLM-5.1生产环境测试中，ZCube在不改动GPU硬件与软件栈前提下，实现交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%。