Anthropic于2月5日发布其最新旗舰模型Claude Opus 4.6。该模型在编码能力上进行了显著升级,能够更谨慎地规划、更长时间地维持智能体任务,并在大型代码库中运行更可靠,同时具备更强的代码审查和调试能力。值得注意的是,这是Opus级模型首次在测试版中支持100万token的上下文窗口。
在性能评估方面,Claude Opus 4.6在多项基准测试中达到行业领先水平。它在智能体编码评估Terminal-Bench 2.0和复杂多学科推理测试Humanity's Last Exam中均取得最高分。在针对金融、法律等高价值知识工作的GDPval-AA评估中,Opus 4.6比OpenAI的GPT-5.2高出约144个Elo点,比其前代Opus 4.5高出190个Elo点。此外,该模型在长上下文检索测试MRCR v2(8-needle 1M变体)中得分为76%,远超Sonnet 4.5的18.5%。
Claude Opus 4.6现已上线claude.ai及各大云平台,API名称为claude-opus-4-6,定价维持不变,为每百万token输入5美元/输出25美元。API端新增了上下文压缩、自适应思考及工作量控制功能。此外,Anthropic还升级了Claude在Excel中的功能,并推出了Claude在PowerPoint中的研究预览版,以增强其在日常办公场景中的实用性。