返回工具研究所
选型指南原创9 分钟阅读

日本AI黑马杀出:7B小模型如何叫板Fable与Mythos?

2026年6月22日,Sakana AI发布Fugu模型,在SWE-Bench Pro和TerminalBench上超越GPT-5.5与Opus 4.8,并宣称比肩Fable与Mythos。其核心并非千亿参数巨兽,而是7B参数的RL Conductor。本文拆解Fugu的多智能体编排架构,分析其在真实开发场景的实用性,并探讨日本大模型在算力受限下的非对称突围路径。

2026/06/22

2026年6月22日,Sakana AI发布的新模型Fugu在AI社区引发震动。在严苛的SWE-Bench Pro和TerminalBench基准测试中,Fugu Ultra分别拿下73.7和82.1分,超越了GPT-5.5和Claude Opus 4.8,甚至宣称与受出口管制的Fable 5和Mythos Preview不相上下。令人意外的是,这个在工程和推理能力上登顶的系统,其核心并非千亿参数的巨兽,而是一个仅有7B参数的模型。它不自己干活,而是作为“包工头”动态调度全球顶尖大模型。这种反常识的架构,不仅打破了“参数即正义”的迷思,也折射出日本在算力受限下的AI突围路径。

7B参数的“包工头”:Fugu的架构反常识

要理解Fugu的怪异之处,首先要看它的出身。Sakana AI由Transformer论文合著者Llion Jones和前Google研究员David Ha于2023年在东京创立。这家公司从诞生起就带着“自然启发式”的基因,致力于用进化算法和自然界的群体智能来解决AI问题。2025年,Sakana AI获得了NVIDIA、Google等巨头的投资,估值超过25亿美元。但即便有巨头背书,日本本土依然缺乏中美那样庞大的算力基础设施和数据池。在这种资源约束下,Sakana AI没有选择硬刚千亿参数大模型,而是走了一条“编排”路线。

Fugu的官方定位是“作为一个单一基础模型的多智能体编排系统”。在传统的AI架构中,大模型是一个“单体巨兽”,用户输入一个提示词,模型从第一层神经网络计算到最后一层,输出结果。这种模式在处理简单问题时效率极高,但在面对复杂的多步骤工程任务时,往往会出现幻觉或逻辑断裂。

Fugu彻底改变了这一范式。它的核心是一个经过强化学习训练的7B参数模型,被称为RL Conductor。这个7B模型本身并不直接生成最终答案,而是扮演“包工头”的角色。当用户通过单一的OpenAI兼容API提交任务后,RL Conductor会动态分析任务类型,然后将子任务分配给智能体池中的全球顶尖模型,比如GPT-5、Gemini 3.1 Pro或Claude Opus 4.8。它负责调度、验证和合成这些模型的输出,最终给出一个经过多重校验的结果。

这一架构的理论支撑来自ICLR 2026的两篇论文:《TRINITY: An Evolved LLM Coordinator》与《Learning to Orchestrate Agents in Natural Language with the Conductor》。论文详细阐述了如何用一个小参数模型通过强化学习来“指挥”大模型。这改变了Test-time scaling(测试时缩放)的范式。过去,算力主要用于模型内部的深度推理,也就是让模型“死磕”一个答案;现在,算力被用于外部的调度、验证和合成。传统大模型是全能型单体,Fugu则是专家团队。7B的RL Conductor证明了,模型参数量不再是决定能力的唯一标准,懂得如何调用工具和外部智能体,同样能实现性能的跃升。

跑分背后的真相:比肩Fable与超越GPT-5.5

Fugu之所以引发轰动,直接原因是其在严苛基准测试上的跑分。在AI行业,跑分是衡量模型能力的硬通货,但不同的基准测试侧重点完全不同。Sakana AI选择的SWE-Bench Pro和TerminalBench 2.1,都是偏向真实工程环境的“硬骨头”。

SWE-Bench Pro专注于软件工程能力,要求模型在真实的代码库中定位并修复Bug。根据Sakana AI控制台公布的数据,Fugu Ultra在SWE-Bench Pro上得分73.7。作为对比,Claude Opus 4.8得分为69.2,GPT-5.5为58.6,Gemini 3.1 Pro为54.2。在另一项测试系统操作能力的TerminalBench 2.1上,Fugu Ultra得分82.1,超越了GPT-5.5的78.2和Opus 4.8的74.6。这两项测试不仅考察模型的代码生成能力,更考察其在多步骤、长链条任务中的逻辑稳定性和工具调用能力。Fugu Ultra的领先,意味着它在处理复杂工程问题时,比单体模型更少出现中途崩溃或偏离目标的情况。

更受关注的是Fugu与Fable 5和Mythos Preview的对比。Anthropic的Fable系列和另一家前沿实验室的Mythos系列,代表了当前AI推理能力的顶尖水平。但由于受到出口管制或未完全公开,这两款模型并未进入Fugu的智能体池。Sakana AI官方宣称Fugu Ultra在工程与科学基准上与Fable 5和Mythos Preview“比肩”,但必须明确的是,这一对比并非同池实测。Fugu的跑分是基于其自身系统的实际运行结果,而Fable和Mythos的数据则是基于其各自厂商公开的报告分数。

这种对比口径在开发者社区引发了一定争议。有观点认为,不同系统在不同环境下的测试条件难以完全对齐,直接比分数有失公允。但也有开发者指出,在缺乏统一实测环境的情况下,参考厂商报告数据是行业惯例。抛开与Fable和Mythos的争议不谈,Fugu Ultra在SWE-Bench Pro和TerminalBench 2.1上对GPT-5.5和Opus 4.8的超越,是实打实的同条件对比。这种超越并非因为Fugu的底层模型比GPT-5.5更聪明,而是因为RL Conductor在任务分解和专家调度上做得更精准。在AutoResearch、魔方还原、机械设计等需要多轮推理和验证的实验中,Fugu也持续展现出优势。这说明在处理“漫长、混乱、多步骤”的真实世界工作流时,多智能体编排的架构确实比单体模型更具韧性。

真实开发场景实测:代码审查与长会话稳定性

对于开发者和AI工具用户而言,跑分只是参考,真正决定一个模型是否好用的,是它在真实工作场景中的表现。Fugu在发布前进行了近500名早期用户的Beta测试,这些用户的反馈揭示了Fugu在实际应用中的独特价值。

代码审查是开发者最常使用的AI场景之一。传统的单体模型在审查代码时,往往只能发现表面的语法错误或常见的逻辑漏洞。而在Beta测试中,有开发者反馈,Fugu在代码审查中表现出了异常的细致,能够找出深层次的架构Bug,而其他工具往往只能找出少数几个表层问题。这种差异源于Fugu的架构。RL Conductor在接收到代码审查任务后,可以分别调用擅长静态分析的模型、擅长逻辑推理的模型和擅长安全审查的模型,对同一段代码进行多角度交叉验证。这种“专家会诊”模式,自然比单一模型的“单打独斗”能发现更多隐藏问题。

另一个被高频提及的优势是长会话稳定性。在构建AI Agent产品时,开发者最头疼的问题之一就是模型在长会话中的“人设漂移”。随着对话轮数的增加,单体模型往往会忘记最初的设定,或者在指令遵循上出现偏差。有企业高管在测试后反馈,Fugu在长会话中的Persona(人设)异常稳定,几乎不发生漂移。这是因为RL Conductor本身不负责维持长文本的记忆,它只负责在每一轮对话中,根据当前上下文,精准地选择最合适的底层模型来生成回复。这种“控制与生成分离”的架构,极大地提升了Agent在长时间运行中的稳定性。

在网络安全领域,Fugu也展现出了端到端的实战能力。在测试中,Fugu能够独立完成从侦察、XSS/SQLi漏洞检测到认证审查的全流程,并生成完整的渗透测试报告,且严格遵守不越界破坏系统的指令。这种复杂任务的完成度,依赖于RL Conductor对安全工具链和不同大模型能力的精准编排。

此外,Token效率也是Fugu的一大亮点。传统大模型在处理复杂问题时,往往会生成冗长的思维链,消耗大量Token。而Fugu的RL Conductor通过精准路由,避免了无意义的长CoT消耗。官方及早期测试显示,它能显著降低无效Token的浪费。对于按Token计费的开发者来说,这不仅意味着成本降低,也意味着响应速度的提升。

底层依赖的软肋:多智能体编排的代价

尽管Fugu在架构和跑分上表现亮眼,但作为一款面向实际工作的工具,它并非没有软肋。多智能体编排的架构在带来性能突破的同时,也带来了不可忽视的风险和限制。

最核心的问题是底层依赖风险。Fugu的智能体池高度依赖GPT、Claude、Gemini等美国大厂的底层API。虽然RL Conductor具备动态路由能力,可以在某一模型出现故障或限流时切换到其他模型,但这只是规避了单一供应商的风险,并没有也无法脱离整个美国AI基础设施生态。如果这些底层模型集体涨价、大规模限流或更改API条款,Fugu的成本结构和稳定性将受到直接冲击。这种“寄居”于他人基础设施之上的模式,在商业化和长期稳定性上存在天然脆弱性。

其次是延迟与成本结构的权衡。虽然RL Conductor通过精准路由节省了无效Token的消耗,但多智能体编排必然涉及多次API调用和模型间的通信。对于需要极低延迟的实时交互场景,比如实时语音对话或高频交易辅助,Fugu Ultra的“深度思考与调度”时间可能长于直接调用单体模型。在那些对响应速度要求极高的场景中,Fugu的架构优势反而可能成为体验的拖累。

此外,对比公平性的争议也一直存在。如前所述,Fugu宣称比肩Fable和Mythos,但后两者并未进入Fugu的智能体池。在开发者社区中,有声音质疑这种基于厂商报告数据的对比是否具有实际参考价值。毕竟,不同模型在不同任务分布下的表现差异很大,简单的总分对比可能掩盖了具体的优劣势。对于需要精确评估模型能力的开发者来说,缺乏同池实测的数据,意味着在选型时仍需保持谨慎。

不拼算力拼编排:日本大模型的非对称突围

跳出具体的产品测评,Fugu的诞生对日本大模型生态有着更深层的意味。在全球AI军备竞赛中,日本处于一个尴尬的位置。它既没有美国那样源源不断的顶尖算力和前沿算法积累,也没有中国那样庞大的数据池和激烈的市场竞争环境。更严峻的是,日本还面临着美国前沿模型(如Fable/Mythos)的出口管制风险。在这种背景下,Sakana AI的“进化算法”和“多智能体编排”路线,展现出一种资源受限国家的“非对称突围”逻辑。

日本本土并非没有大模型厂商。NTT推出了tsuzumi,ELYZA、Rinna和LLM-jp等机构也在努力训练本土语言模型。但这些厂商大多走的是“从头训练”的传统路线,在参数规模和通用能力上,很难与中美顶尖模型抗衡。Sakana AI是其中唯一具有全球前沿影响力,且主打“非对称架构”的实验室。

Fugu的动态路由能力,本质上是在帮日本企业和机构建立“AI主权”(AI Sovereignty)。在算力受限的情况下,与其耗费巨资训练一个各方面都不如GPT-5.5的千亿参数模型,不如训练一个聪明的7B“包工头”。这个包工头可以根据任务需求,灵活接入全球最好的模型。如果某一天某个美国模型受到出口管制或断供,RL Conductor可以迅速将任务路由到其他可用的模型上,甚至接入日本本土的专用模型。这种架构使得日本在AI能力的使用上,获得了一定程度的自主权和抗风险能力。

OmniTools在观察全球AI工具生态时发现,大模型的能力正在逐渐拉平,竞争的主战场正在从单纯的参数堆砌转向工具链与落地场景。Fugu的出现恰好印证了这一趋势。它不再追求在单一模型上做到极致,而是追求在系统层面做到最优。这种思路对于算力和数据都不占优的国家和地区,具有重要的借鉴意义。

当然,这种“非对称突围”也有其天花板。只要底层模型的核心技术仍掌握在少数巨头手中,编排系统的能力上限就会被底层模型所限制。Fugu证明了7B模型可以成为优秀的指挥官,但它无法凭空创造出底层模型不具备的能力。日本大模型要真正实现突围,除了在编排架构上创新,仍需在底层算力、核心算法和高质量数据上持续投入。Fugu是一个精巧的系统级创新,但它并非万能药。对于开发者和企业用户来说,Fugu提供了一个在复杂工程场景下极具竞争力的新选项,但在使用时,也需清醒认识其底层依赖的脆弱性和延迟成本的权衡。