7B小模型通过强化学习指挥GPT-5等大模型，多项基准测试超越单一大模型

OmniTools 5月11日消息，一项新研究显示，一个仅70亿参数的语言模型经强化学习训练后，可有效协调调用GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型以自然语言拆解任务、分配子任务并精确传递上下文，在GPQA Diamond、LiveCodeBench和AIME25等高难度基准测试中全面优于任一单一大模型。

实验表明，该系统平均每问题仅需调用约三次大模型，效率高于人工设计的多代理流程。研究证实，当前依赖人工提示工程与流程编排的AI应用，具备通过奖励信号实现端到端自动优化的可行性。

该成果指向AI能力演进的新路径：模型规模之外，任务分解、跨模型协同与动态调度能力正成为关键智能维度。