OmniTools 6月11日消息,腾讯混元 AI Infra 团队近日宣布开源升级版 HPC-Ops 推理算子库,推出五大核心算子。其中,Attention 算子采用运行时动态负载调度,长文本推理最高加速 2.95 倍,端到端 QPM 提升 17%;Router GEMM 以双 BF16 组合实现 FP32 精度,对比 CuBLAS FP32 最高提速 3.22 倍。此外,FusedMoE 相对 vLLM、SGLang 性能提升 1.2 至 1.6 倍;Fused AllReduce+Norm 对比主流方案最高提速 1.68 倍;Sampler 将解码采样融合为 2 个 CUDA Kernel,相对 vLLM 提速 4.0 至 7.5 倍。上述优化均基于实际生产环境验证,现已完全开源。