返回行业动态

研究团队提出 KPop 方法,Ring-2.6-1T 模型在 SWE-bench Verified 得分突破 76

2026/05/26 15:38
查看原文

OmniTools 5月26日消息,研究团队推出新型强化学习训练方法 KPop,旨在稳定大规模 MoE 模型的智能体训练。该方法引入基于二元 KL 散度的自适应掩码机制,替代了此前 IcePop 的固定比例掩码策略,可根据训练过程中的训练-推理不匹配程度动态调整。实验表明,在不修改底层基础设施且不依赖路由重放的情况下,仅通过纯强化学习训练,Ring-2.6-1T 模型在 SWE-bench Verified 基准测试中得分突破 76 分。