返回行业动态

SGLang 联合 AMD 优化 DeepSeek-R1 推理,MI355X GPU 总拥有成本较 B200 降低 5%-40%

2026/05/28 16:45
查看原文

OmniTools 5月29日消息,SGLang 团队与 AMD 合作完成全栈优化,显著提升 AMD Instinct™ MI355X GPU 在 DeepSeek-R1 大模型分离式推理任务中的成本效益。在 129 tok/s/user 的交互延迟下,其总拥有成本为每百万 token 0.169 美元,较 NVIDIA B200(Dynamo TRT-LLM)方案低 5%,较 B200(SGLang)方案低 40%。

吞吐量方面,24 块 MI355X GPU 实现 2436 tok/s/GPU,单卡吞吐量是使用 48 块 GPU 的 B200(SGLang)方案的 1.25 倍。

核心优化技术涵盖 MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO KV Cache 后端、两批重叠与 SDMA、ROCm 平台上的 Specv2 MTP,以及 CPU 流式处理优化。