Anthropic 正式发布其最新旗舰模型 Claude Opus 4.6。该模型在编程、规划和智能体任务执行方面均有显著提升,能够更可靠地处理大型代码库,并具备更强的代码审查和调试能力。值得注意的是,Opus 4.6 首次为 Opus 级别模型引入了 100 万 token 上下文窗口(测试版),在长上下文检索和推理任务中表现优异,在 MRCR v2 基准测试中得分达 76%,远超 Sonnet 4.5 的 18.5%。
在多项基准测试中,Claude Opus 4.6 达到了行业领先水平。它在智能体编程评估 Terminal-Bench 2.0 和多学科推理测试 Humanity's Last Exam 中均取得最高分;在衡量金融、法律等领域知识工作表现的 GDPval-AA 评估中,Opus 4.6 超越 OpenAI GPT-5.2 约 144 Elo 分,并领先前代 Opus 4.5 达 190 分。此外,该模型在在线信息检索评估 BrowseComp 上也位列第一。
新模型还引入了自适应思考、上下文压缩和努力程度控制等 API 新特性,并升级了 Excel 集成和推出了 PowerPoint 研究预览版。Claude Opus 4.6 现已在 claude.ai 和各大云平台上线,API 调用名称为 claude-opus-4-6,定价维持不变,为每百万 token 输入 5 美元、输出 25 美元。