返回行业动态

Kog团队实现LLM单用户推理速度10–30倍提升

2026/05/29 17:28
查看原文

OmniTools 5月30日消息,Kog团队在标准数据中心GPU上实现显著推理加速:在8× AMD MI300X GPU配置下达3000 tokens/s,在8× NVIDIA H200配置下达2100 tokens/s。相较常规LLM推理速度(约100–300 tokens/s),性能提升达10–30倍。

该成果基于将大语言模型解码重新建模为内存流问题,通过协同设计monokernel、重构同步机制、优化内存访问映射,并引入支持延迟张量并行的Laneformer模型架构,有效消除传统推理流程中的关键阻塞点。