返回行业动态

英伟达开源智能体强化学习框架 Polar

2026/05/28 03:29
查看原文

OmniTools 5月28日消息,英伟达研究团队正式开源智能体强化学习框架 Polar。该框架采用 GRPO 训练方法,无需修改现有智能体执行框架(如 Codex CLI、Claude Code、Qwen Code、Pi),仅需在模型 API 边界部署智能体即可接入。

实验表明,基于 Qwen3.5-4B 模型,Polar 将 Codex 在 SWE-Bench Verified 基准上的 pass@1 分数从 3.8% 提升至 26.4%,提升幅度达 594.74%。

在训练效率方面,其 prefix_merging 技术将训练步骤由 1185 次减少至 218 次,速度提升约 5.39 倍;GPU 平均利用率亦从 20.4% 提高至 87.7%。