OmniTools 5月29日消息,SGLang 团队与 AMD 合作完成全栈优化,显著提升 AMD Instinct™ MI355X GPU 在 DeepSeek-R1 大模型分离式推理任务中的成本效益。在 129 tok/s/user 的交互延迟下,其总拥有成本为每百万 token 0.169 美元,较 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,较 B200(SGLang)方案低 40%。
吞吐量方面,24 块 MI355X GPU 实现 2436 tok/s/GPU,单卡吞吐量是使用 48 块 GPU 的 B200(SGLang)方案的 1.25 倍。
核心优化技术涵盖 MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 平台上的 Specv2 MTP,以及 CPU 流式处理优化。