日本AI黑马杀出：7B小模型如何叫板Fable与Mythos？

2026年6月22日，Sakana AI发布的新模型Fugu在AI社区引发震动。在严苛的SWE-Bench Pro和TerminalBench基准测试中，Fugu Ultra分别拿下73.7和82.1分，超越了GPT-5.5和Claude Opus 4.8，甚至宣称与受出口管制的Fable 5和Mythos Preview不相上下。令人意外的是，这个在工程和推理能力上登顶的系统，其核心并非千亿参数的巨兽，而是一个仅有7B参数的模型。它不自己干活，而是作为“包工头”动态调度全球顶尖大模型。这种反常识的架构，不仅打破了“参数即正义”的迷思，也折射出日本在算力受限下的AI突围路径。

7B参数的“包工头”：Fugu的架构反常识

要理解Fugu的怪异之处，首先要看它的出身。Sakana AI由Transformer论文合著者Llion Jones和前Google研究员David Ha于2023年在东京创立。这家公司从诞生起就带着“自然启发式”的基因，致力于用进化算法和自然界的群体智能来解决AI问题。2025年，Sakana AI获得了NVIDIA、Google等巨头的投资，估值超过25亿美元。但即便有巨头背书，日本本土依然缺乏中美那样庞大的算力基础设施和数据池。在这种资源约束下，Sakana AI没有选择硬刚千亿参数大模型，而是走了一条“编排”路线。

Fugu的官方定位是“作为一个单一基础模型的多智能体编排系统”。在传统的AI架构中，大模型是一个“单体巨兽”，用户输入一个提示词，模型从第一层神经网络计算到最后一层，输出结果。这种模式在处理简单问题时效率极高，但在面对复杂的多步骤工程任务时，往往会出现幻觉或逻辑断裂。

Fugu彻底改变了这一范式。它的核心是一个经过强化学习训练的7B参数模型，被称为RL Conductor。这个7B模型本身并不直接生成最终答案，而是扮演“包工头”的角色。当用户通过单一的OpenAI兼容API提交任务后，RL Conductor会动态分析任务类型，然后将子任务分配给智能体池中的全球顶尖模型，比如GPT-5、Gemini 3.1 Pro或Claude Opus 4.8。它负责调度、验证和合成这些模型的输出，最终给出一个经过多重校验的结果。

这一架构的理论支撑来自ICLR 2026的两篇论文：《TRINITY: An Evolved LLM Coordinator》与《Learning to Orchestrate Agents in Natural Language with the Conductor》。论文详细阐述了如何用一个小参数模型通过强化学习来“指挥”大模型。这改变了Test-time scaling（测试时缩放）的范式。过去，算力主要用于模型内部的深度推理，也就是让模型“死磕”一个答案；现在，算力被用于外部的调度、验证和合成。传统大模型是全能型单体，Fugu则是专家团队。7B的RL Conductor证明了，模型参数量不再是决定能力的唯一标准，懂得如何调用工具和外部智能体，同样能实现性能的跃升。

跑分背后的真相：比肩Fable与超越GPT-5.5

Fugu之所以引发轰动，直接原因是其在严苛基准测试上的跑分。在AI行业，跑分是衡量模型能力的硬通货，但不同的基准测试侧重点完全不同。Sakana AI选择的SWE-Bench Pro和TerminalBench 2.1，都是偏向真实工程环境的“硬骨头”。

SWE-Bench Pro专注于软件工程能力，要求模型在真实的代码库中定位并修复Bug。根据Sakana AI控制台公布的数据，Fugu Ultra在SWE-Bench Pro上得分73.7。作为对比，Claude Opus 4.8得分为69.2，GPT-5.5为58.6，Gemini 3.1 Pro为54.2。在另一项测试系统操作能力的TerminalBench 2.1上，Fugu Ultra得分82.1，超越了GPT-5.5的78.2和Opus 4.8的74.6。这两项测试不仅考察模型的代码生成能力，更考察其在多步骤、长链条任务中的逻辑稳定性和工具调用能力。Fugu Ultra的领先，意味着它在处理复杂工程问题时，比单体模型更少出现中途崩溃或偏离目标的情况。

更受关注的是Fugu与Fable 5和Mythos Preview的对比。Anthropic的Fable系列和另一家前沿实验室的Mythos系列，代表了当前AI推理能力的顶尖水平。但由于受到出口管制或未完全公开，这两款模型并未进入Fugu的智能体池。Sakana AI官方宣称Fugu Ultra在工程与科学基准上与Fable 5和Mythos Preview“比肩”，但必须明确的是，这一对比并非同池实测。Fugu的跑分是基于其自身系统的实际运行结果，而Fable和Mythos的数据则是基于其各自厂商公开的报告分数。

这种对比口径在开发者社区引发了一定争议。有观点认为，不同系统在不同环境下的测试条件难以完全对齐，直接比分数有失公允。但也有开发者指出，在缺乏统一实测环境的情况下，参考厂商报告数据是行业惯例。抛开与Fable和Mythos的争议不谈，Fugu Ultra在SWE-Bench Pro和TerminalBench 2.1上对GPT-5.5和Opus 4.8的超越，是实打实的同条件对比。这种超越并非因为Fugu的底层模型比GPT-5.5更聪明，而是因为RL Conductor在任务分解和专家调度上做得更精准。在AutoResearch、魔方还原、机械设计等需要多轮推理和验证的实验中，Fugu也持续展现出优势。这说明在处理“漫长、混乱、多步骤”的真实世界工作流时，多智能体编排的架构确实比单体模型更具韧性。

真实开发场景实测：代码审查与长会话稳定性

对于开发者和AI工具用户而言，跑分只是参考，真正决定一个模型是否好用的，是它在真实工作场景中的表现。Fugu在发布前进行了近500名早期用户的Beta测试，这些用户的反馈揭示了Fugu在实际应用中的独特价值。

代码审查是开发者最常使用的AI场景之一。传统的单体模型在审查代码时，往往只能发现表面的语法错误或常见的逻辑漏洞。而在Beta测试中，有开发者反馈，Fugu在代码审查中表现出了异常的细致，能够找出深层次的架构Bug，而其他工具往往只能找出少数几个表层问题。这种差异源于Fugu的架构。RL Conductor在接收到代码审查任务后，可以分别调用擅长静态分析的模型、擅长逻辑推理的模型和擅长安全审查的模型，对同一段代码进行多角度交叉验证。这种“专家会诊”模式，自然比单一模型的“单打独斗”能发现更多隐藏问题。

另一个被高频提及的优势是长会话稳定性。在构建AI Agent产品时，开发者最头疼的问题之一就是模型在长会话中的“人设漂移”。随着对话轮数的增加，单体模型往往会忘记最初的设定，或者在指令遵循上出现偏差。有企业高管在测试后反馈，Fugu在长会话中的Persona（人设）异常稳定，几乎不发生漂移。这是因为RL Conductor本身不负责维持长文本的记忆，它只负责在每一轮对话中，根据当前上下文，精准地选择最合适的底层模型来生成回复。这种“控制与生成分离”的架构，极大地提升了Agent在长时间运行中的稳定性。

在网络安全领域，Fugu也展现出了端到端的实战能力。在测试中，Fugu能够独立完成从侦察、XSS/SQLi漏洞检测到认证审查的全流程，并生成完整的渗透测试报告，且严格遵守不越界破坏系统的指令。这种复杂任务的完成度，依赖于RL Conductor对安全工具链和不同大模型能力的精准编排。

此外，Token效率也是Fugu的一大亮点。传统大模型在处理复杂问题时，往往会生成冗长的思维链，消耗大量Token。而Fugu的RL Conductor通过精准路由，避免了无意义的长CoT消耗。官方及早期测试显示，它能显著降低无效Token的浪费。对于按Token计费的开发者来说，这不仅意味着成本降低，也意味着响应速度的提升。

底层依赖的软肋：多智能体编排的代价

尽管Fugu在架构和跑分上表现亮眼，但作为一款面向实际工作的工具，它并非没有软肋。多智能体编排的架构在带来性能突破的同时，也带来了不可忽视的风险和限制。

最核心的问题是底层依赖风险。Fugu的智能体池高度依赖GPT、Claude、Gemini等美国大厂的底层API。虽然RL Conductor具备动态路由能力，可以在某一模型出现故障或限流时切换到其他模型，但这只是规避了单一供应商的风险，并没有也无法脱离整个美国AI基础设施生态。如果这些底层模型集体涨价、大规模限流或更改API条款，Fugu的成本结构和稳定性将受到直接冲击。这种“寄居”于他人基础设施之上的模式，在商业化和长期稳定性上存在天然脆弱性。

其次是延迟与成本结构的权衡。虽然RL Conductor通过精准路由节省了无效Token的消耗，但多智能体编排必然涉及多次API调用和模型间的通信。对于需要极低延迟的实时交互场景，比如实时语音对话或高频交易辅助，Fugu Ultra的“深度思考与调度”时间可能长于直接调用单体模型。在那些对响应速度要求极高的场景中，Fugu的架构优势反而可能成为体验的拖累。

此外，对比公平性的争议也一直存在。如前所述，Fugu宣称比肩Fable和Mythos，但后两者并未进入Fugu的智能体池。在开发者社区中，有声音质疑这种基于厂商报告数据的对比是否具有实际参考价值。毕竟，不同模型在不同任务分布下的表现差异很大，简单的总分对比可能掩盖了具体的优劣势。对于需要精确评估模型能力的开发者来说，缺乏同池实测的数据，意味着在选型时仍需保持谨慎。

不拼算力拼编排：日本大模型的非对称突围

跳出具体的产品测评，Fugu的诞生对日本大模型生态有着更深层的意味。在全球AI军备竞赛中，日本处于一个尴尬的位置。它既没有美国那样源源不断的顶尖算力和前沿算法积累，也没有中国那样庞大的数据池和激烈的市场竞争环境。更严峻的是，日本还面临着美国前沿模型（如Fable/Mythos）的出口管制风险。在这种背景下，Sakana AI的“进化算法”和“多智能体编排”路线，展现出一种资源受限国家的“非对称突围”逻辑。

日本本土并非没有大模型厂商。NTT推出了tsuzumi，ELYZA、Rinna和LLM-jp等机构也在努力训练本土语言模型。但这些厂商大多走的是“从头训练”的传统路线，在参数规模和通用能力上，很难与中美顶尖模型抗衡。Sakana AI是其中唯一具有全球前沿影响力，且主打“非对称架构”的实验室。

Fugu的动态路由能力，本质上是在帮日本企业和机构建立“AI主权”（AI Sovereignty）。在算力受限的情况下，与其耗费巨资训练一个各方面都不如GPT-5.5的千亿参数模型，不如训练一个聪明的7B“包工头”。这个包工头可以根据任务需求，灵活接入全球最好的模型。如果某一天某个美国模型受到出口管制或断供，RL Conductor可以迅速将任务路由到其他可用的模型上，甚至接入日本本土的专用模型。这种架构使得日本在AI能力的使用上，获得了一定程度的自主权和抗风险能力。

OmniTools在观察全球AI工具生态时发现，大模型的能力正在逐渐拉平，竞争的主战场正在从单纯的参数堆砌转向工具链与落地场景。Fugu的出现恰好印证了这一趋势。它不再追求在单一模型上做到极致，而是追求在系统层面做到最优。这种思路对于算力和数据都不占优的国家和地区，具有重要的借鉴意义。

当然，这种“非对称突围”也有其天花板。只要底层模型的核心技术仍掌握在少数巨头手中，编排系统的能力上限就会被底层模型所限制。Fugu证明了7B模型可以成为优秀的指挥官，但它无法凭空创造出底层模型不具备的能力。日本大模型要真正实现突围，除了在编排架构上创新，仍需在底层算力、核心算法和高质量数据上持续投入。Fugu是一个精巧的系统级创新，但它并非万能药。对于开发者和企业用户来说，Fugu提供了一个在复杂工程场景下极具竞争力的新选项，但在使用时，也需清醒认识其底层依赖的脆弱性和延迟成本的权衡。