智谱AI提出ZCube网络架构，优化超大规模大模型推理

OmniTools 5月21日消息，智谱AI近日发布ZCube网络架构，专为超大规模大模型推理场景设计。该架构通过取消Spine层、将Leaf交换机分组并实现组内全互联，有效缓解推理网络拥塞问题。

集群实测数据显示，ZCube使交换机与光模块资本支出降低33%，GPU平均推理吞吐提升15%，首token延迟P99值下降40.6%，在控制成本的同时显著提升推理性能。