OmniTools 6月9日消息,腾讯混元正式推出UniRL——一个面向多模态模型的统一强化学习基础设施。该框架支持扩散模型、流匹配模型、大语言模型(LLM)、视觉语言模型(VLM)及统一多模态模型(如Hunyuan-Image 3和Bagel),通过单一后训练流程(生成→评分→优势→更新→同步)实现跨模型类型适配。
UniRL将模型与算法解耦为两个正交维度,支持任意模型与算法组合。其核心特性包括可插拔rollout引擎(兼容训练侧、SGLang、vLLM-Omni)、FSDP2分片训练及三种部署模式。
项目同步开源两个新算法:Flow-DPPO针对流/扩散模型提出基于精确散度的信任域策略优化;DRPO则为LLM强化学习提供平滑的优势加权二次正则化方法。全部代码已公开。