Anthropic 发布 Claude Opus 4.6：支持 100 万上下文，编程与推理能力大幅提升

Anthropic 正式发布其最新旗舰模型 Claude Opus 4.6。该模型在编程、规划和智能体任务执行方面均有显著提升，能够更可靠地处理大型代码库，并具备更强的代码审查和调试能力。值得注意的是，Opus 4.6 首次为 Opus 级别模型引入了 100 万 token 上下文窗口（测试版），在长上下文检索和推理任务中表现优异，在 MRCR v2 基准测试中得分达 76%，远超 Sonnet 4.5 的 18.5%。

在多项基准测试中，Claude Opus 4.6 达到了行业领先水平。它在智能体编程评估 Terminal-Bench 2.0 和多学科推理测试 Humanity's Last Exam 中均取得最高分；在衡量金融、法律等领域知识工作表现的 GDPval-AA 评估中，Opus 4.6 超越 OpenAI GPT-5.2 约 144 Elo 分，并领先前代 Opus 4.5 达 190 分。此外，该模型在在线信息检索评估 BrowseComp 上也位列第一。

新模型还引入了自适应思考、上下文压缩和努力程度控制等 API 新特性，并升级了 Excel 集成和推出了 PowerPoint 研究预览版。Claude Opus 4.6 现已在 claude.ai 和各大云平台上线，API 调用名称为 claude-opus-4-6，定价维持不变，为每百万 token 输入 5 美元、输出 25 美元。