返回行业动态

ZCube网络架构发布:提升大模型推理吞吐并降低硬件成本

2026/05/20 21:53
查看原文

OmniTools 5月21日消息,Z.ai、Harnets.AI与清华大学联合研发ZCube网络架构,旨在解决大模型推理中GPU集群网络瓶颈问题。随着长上下文处理与Prefill-Decode分离部署普及,网络已成制约推理吞吐、尾部延迟和整体成本的关键因素。

该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散KV Cache等动态非对称流量,缓解传统静态拓扑下的局部拥塞。

在GLM-5.1生产环境测试中,ZCube在不改动GPU硬件与软件栈前提下,实现交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%。