DeepSeek 今日发布 V4 模型,主打高效的超长上下文支持与智能体任务优化。此次发布了两款 MoE 架构模型:DeepSeek-V4-Pro(总参数 1.6T,激活参数 49B)与 DeepSeek-V4-Flash(总参数 284B,激活参数 13B),两者均支持 100 万 Token 上下文窗口。
针对长上下文推理中 KV 缓存占用过大的痛点,V4 引入了混合注意力机制(CSA 和 HCA),在交替层中压缩 KV 条目。与 V3.2 相比,V4-Pro 的单 Token 推理 FLOPs 降至 27%,KV 缓存内存降至 10%;V4-Flash 则分别降至 10% 和 7%。与传统 GQA 架构相比,其 KV 缓存大小仅约 2%。
在智能体功能方面,V4 支持跨工具调用的交错思考,保留跨用户轮次的推理历史;引入了基于 XML 的工具调用格式及专用 Token |DSML| 以减少解析错误;并配备了用于强化学习训练的沙箱环境 DSec。在基准测试中,V4-Pro-Max 在 SWE Verified 得分 80.6,MCPAtlas Public 得分 73.6,智能体任务表现达到前沿闭源模型水平。