OmniTools 6月2日消息,阶跃星辰正式发布推理优化型大模型 Step 3.7 Flash。该模型采用 196B 参数 MoE 架构,从设计之初即专注于提升推理效率与降低服务开销。
技术层面,Step 3.7 Flash 引入多矩阵分解注意力机制,使 KV-cache 内存占用降至同类模型的约 22%;同时通过注意力与 FFN 解耦技术,进一步优化硬件适配性与服务吞吐能力。
目前该模型已上线 Fireworks AI 平台,采用 Apache 2.0 开源协议,可广泛应用于智能体(Agent)构建等场景。