2月5日,Anthropic正式发布其最新旗舰模型Claude Opus 4.6。该模型首次为Opus级别引入了100万token的上下文窗口(测试版),并在长上下文检索与推理方面实现显著提升。在MRCR v2基准测试的8-needle 1M变体中,Opus 4.6得分达76%,远超Sonnet 4.5的18.5%。
Opus 4.6在编码、智能体任务及多步推理能力上均有大幅改进,能够更可靠地处理大型代码库并自主执行更长时间的任务。在多项基准测试中,该模型取得业界领先成绩:在Terminal-Bench 2.0和Humanity’s Last Exam中得分最高;在GDPval-AA经济价值知识工作评估中,领先OpenAI GPT-5.2约144个Elo点,并在BrowseComp信息检索测试中超越其他模型。
此外,API端新增了自适应思考、工作量控制及上下文压缩功能,以支持更长时任务。Claude在Excel中的功能得到升级,并推出了PowerPoint研究预览版。Claude Opus 4.6现已上线claude.ai及各大云平台,API定价维持不变,为每百万token输入5美元/输出25美元。