SGLang 联合 AMD 优化 DeepSeek-R1 推理，MI355X GPU 总拥有成本较 B200 降低 5%-40%

OmniTools 5月29日消息，SGLang 团队与 AMD 合作完成全栈优化，显著提升 AMD Instinct™ MI355X GPU 在 DeepSeek-R1 大模型分离式推理任务中的成本效益。在 129 tok/s/user 的交互延迟下，其总拥有成本为每百万 token 0.169 美元，较 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，较 B200（SGLang）方案低 40%。

吞吐量方面，24 块 MI355X GPU 实现 2436 tok/s/GPU，单卡吞吐量是使用 48 块 GPU 的 B200（SGLang）方案的 1.25 倍。

核心优化技术涵盖 MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 平台上的 Specv2 MTP，以及 CPU 流式处理优化。