返回行业动态

阿里Qwen团队开源Qwen3.6-35B-A3B:稀疏MoE架构仅激活30亿参数,强化智能体编码与多模态能力

2026/04/17 06:20
查看原文

阿里巴巴Qwen团队正式开源Qwen3.6-35B-A3B模型。该模型采用稀疏混合专家(MoE)架构,总参数量达350亿,推理时仅激活30亿参数。其MoE层包含256个专家,每个Token激活8个路由专家与1个共享专家。模型原生支持262,144上下文长度,经YaRN扩展最高可达1,010,000 Token。

在智能体编码方面,该模型表现突出:SWE-bench Verified得分73.4,Terminal-Bench 2.0得分51.5(对比模型中最高),前端代码生成基准QwenWebBench得分1397。多模态能力上,在MMMU、RealWorldQA和VideoMMMU基准中分别取得81.7、85.3和83.7的分数,优于Claude-Sonnet-4.5与Gemma4-31B。

此外,模型新增“思考保留”功能,可复用历史对话的推理痕迹,提升多步智能体工作流的决策一致性。该模型基于Apache 2.0协议开源,兼容SGLang、vLLM、KTransformers及Hugging Face Transformers等主流推理框架。