Anthropic 发布 Claude Opus 4.6：支持 100 万上下文，编码与推理能力大幅提升

2月5日，Anthropic 正式发布最新旗舰模型 Claude Opus 4.6。该模型在编码和智能体任务处理上显著升级，能够更周密地规划，在大型代码库中运行更可靠，并具备更强的代码审查与调试能力。这也是 Opus 级别模型首次在测试版中支持 100 万 token 的上下文窗口。

在基准测试中，Claude Opus 4.6 表现达到业界领先水平。它在智能体编码评估 Terminal-Bench 2.0 和复杂推理测试 Humanity's Last Exam 中均取得最高分；在衡量知识工作任务的 GDPval-AA 评估中，该模型比 OpenAI 的 GPT-5.2 高出约 144 Elo 分，比前代 Opus 4.5 高出 190 分。此外，在长上下文检索测试 MRCR v2 中，Opus 4.6 得分达 76%，远超 Sonnet 4.5 的 18.5%。

新模型还引入了自适应思考、努力程度控制以及上下文压缩等功能，以支持更长时间的运行任务。同时，Anthropic 升级了 Claude 在 Excel 中的功能，并发布了 PowerPoint 的研究预览版。Claude Opus 4.6 现已在 claude.ai 和 API 上线，API 名称为 claude-opus-4-6，定价维持不变，为每百万 token 输入 5 美元、输出 25 美元。