DeepSeek发布V4模型：支持100万Token上下文，专为智能体任务优化

DeepSeek 今日发布 V4 模型，主打高效的超长上下文支持与智能体任务优化。此次发布了两款 MoE 架构模型：DeepSeek-V4-Pro（总参数 1.6T，激活参数 49B）与 DeepSeek-V4-Flash（总参数 284B，激活参数 13B），两者均支持 100 万 Token 上下文窗口。

针对长上下文推理中 KV 缓存占用过大的痛点，V4 引入了混合注意力机制（CSA 和 HCA），在交替层中压缩 KV 条目。与 V3.2 相比，V4-Pro 的单 Token 推理 FLOPs 降至 27%，KV 缓存内存降至 10%；V4-Flash 则分别降至 10% 和 7%。与传统 GQA 架构相比，其 KV 缓存大小仅约 2%。

在智能体功能方面，V4 支持跨工具调用的交错思考，保留跨用户轮次的推理历史；引入了基于 XML 的工具调用格式及专用 Token |DSML| 以减少解析错误；并配备了用于强化学习训练的沙箱环境 DSec。在基准测试中，V4-Pro-Max 在 SWE Verified 得分 80.6，MCPAtlas Public 得分 73.6，智能体任务表现达到前沿闭源模型水平。