研究团队提出 KPop 方法，Ring-2.6-1T 模型在 SWE-bench Verified 得分突破 76

OmniTools 5月26日消息，研究团队推出新型强化学习训练方法 KPop，旨在稳定大规模 MoE 模型的智能体训练。该方法引入基于二元 KL 散度的自适应掩码机制，替代了此前 IcePop 的固定比例掩码策略，可根据训练过程中的训练-推理不匹配程度动态调整。实验表明，在不修改底层基础设施且不依赖路由重放的情况下，仅通过纯强化学习训练，Ring-2.6-1T 模型在 SWE-bench Verified 基准测试中得分突破 76 分。