OmniTools 5月7日消息,5月6日消息,ServiceNow-AI 团队在将 vLLM 从 0.8.5(V0)升级至 0.18.1(V1)的过程中,重点解决了训练与推理不匹配的问题。团队指出,在强化学习(RL)场景中,推理引擎输出的 token logprobs 直接参与策略梯度计算,任何后端行为偏差都会显著扰动训练动力学。
为此,团队优先修复了后端行为一致性,而非直接调整 RL 目标函数。具体修复包括:修正 logprobs 语义(启用 processed_logprobs 以匹配采样后分布)、对齐运行时默认配置(禁用前缀缓存与异步调度)、优化动态权重更新路径,以及强制使用 fp32 精度计算最终投影层(lm_head)。经上述调整,V1 版本在 clip rate、KL 散度、熵及奖励等核心指标上成功复现了 V0 参考轨迹。
该实践表明,在在线 RL 训练迁移中,应首先确保推理后端的数值与语义正确性,再考虑引入异步或离策略修正。