vLLM V0 至 V1 迁移实践：ServiceNow-AI 强调优先保障推理后端正确性

OmniTools 5月7日消息，5月6日消息，ServiceNow-AI 团队在将 vLLM 从 0.8.5（V0）升级至 0.18.1（V1）的过程中，重点解决了训练与推理不匹配的问题。团队指出，在强化学习（RL）场景中，推理引擎输出的 token logprobs 直接参与策略梯度计算，任何后端行为偏差都会显著扰动训练动力学。

为此，团队优先修复了后端行为一致性，而非直接调整 RL 目标函数。具体修复包括：修正 logprobs 语义（启用 processed_logprobs 以匹配采样后分布）、对齐运行时默认配置（禁用前缀缓存与异步调度）、优化动态权重更新路径，以及强制使用 fp32 精度计算最终投影层（lm_head）。经上述调整，V1 版本在 clip rate、KL 散度、熵及奖励等核心指标上成功复现了 V0 参考轨迹。

该实践表明，在在线 RL 训练迁移中，应首先确保推理后端的数值与语义正确性，再考虑引入异步或离策略修正。