OmniTools 5月14日消息,Hugging Face 于5月14日发布技术博客,详细介绍在连续批处理(continuous batching)中引入异步执行机制的优化方案。该方案通过解耦 CPU 批处理准备与 GPU 计算任务,使二者并行运行,从而大幅减少硬件空闲时间。
文章指出,传统同步连续批处理中 CPU 与 GPU 需轮流工作,导致 GPU 约 24% 的运行时间处于等待状态。新方法基于 CUDA 非默认流与事件(CUDA event)机制,在输入传输、计算、输出回传三个阶段分别使用独立流,并通过事件实现跨流同步,确保数据就绪后再启动后续操作。
实验数据显示,该异步方案可在不修改模型或底层内核的前提下,将 8B 模型生成 8K token 的总耗时从 300.6 秒降至约 228 秒,实现约 24% 的理论提速。相关代码实现已集成至 Transformers 库中。