OmniTools 5月30日消息,Kog团队在标准数据中心GPU上实现显著推理加速:在8× AMD MI300X GPU配置下达3000 tokens/s,在8× NVIDIA H200配置下达2100 tokens/s。相较常规LLM推理速度(约100–300 tokens/s),性能提升达10–30倍。
该成果基于将大语言模型解码重新建模为内存流问题,通过协同设计monokernel、重构同步机制、优化内存访问映射,并引入支持延迟张量并行的Laneformer模型架构,有效消除传统推理流程中的关键阻塞点。