OmniTools 5月21日消息,智谱AI近日发布ZCube网络架构,专为超大规模大模型推理场景设计。该架构通过取消Spine层、将Leaf交换机分组并实现组内全互联,有效缓解推理网络拥塞问题。 集群实测数据显示,ZCube使交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,首token延迟P99值下降40.6%,在控制成本的同时显著提升推理性能。