OmniTools 5月11日消息,一项新研究显示,一个仅70亿参数的语言模型经强化学习训练后,可有效协调调用GPT-5、Claude Sonnet 4和Gemini 2.5 Pro等前沿大模型。该模型以自然语言拆解任务、分配子任务并精确传递上下文,在GPQA Diamond、LiveCodeBench和AIME25等高难度基准测试中全面优于任一单一大模型。
实验表明,该系统平均每问题仅需调用约三次大模型,效率高于人工设计的多代理流程。研究证实,当前依赖人工提示工程与流程编排的AI应用,具备通过奖励信号实现端到端自动优化的可行性。
该成果指向AI能力演进的新路径:模型规模之外,任务分解、跨模型协同与动态调度能力正成为关键智能维度。