英伟达开源智能体强化学习框架 Polar

OmniTools 5月28日消息，英伟达研究团队正式开源智能体强化学习框架 Polar。该框架采用 GRPO 训练方法，无需修改现有智能体执行框架（如 Codex CLI、Claude Code、Qwen Code、Pi），仅需在模型 API 边界部署智能体即可接入。

实验表明，基于 Qwen3.5-4B 模型，Polar 将 Codex 在 SWE-Bench Verified 基准上的 pass@1 分数从 3.8% 提升至 26.4%，提升幅度达 594.74%。

在训练效率方面，其 prefix_merging 技术将训练步骤由 1185 次减少至 218 次，速度提升约 5.39 倍；GPU 平均利用率亦从 20.4% 提高至 87.7%。