Kog团队实现LLM单用户推理速度10

OmniTools 5月30日消息，Kog团队在标准数据中心GPU上实现显著推理加速：在8× AMD MI300X GPU配置下达3000 tokens/s，在8× NVIDIA H200配置下达2100 tokens/s。相较常规LLM推理速度（约100–300 tokens/s），性能提升达10–30倍。

该成果基于将大语言模型解码重新建模为内存流问题，通过协同设计monokernel、重构同步机制、优化内存访问映射，并引入支持延迟张量并行的Laneformer模型架构，有效消除传统推理流程中的关键阻塞点。

Kog团队实现LLM单用户推理速度10–30倍提升