2月17日,Anthropic 正式发布 Claude Sonnet 4.6 模型。该模型在编码、计算机使用、长上下文推理及智能体规划等方面实现全面升级,并推出测试版的 1M token 上下文窗口。定价与上一代 Sonnet 4.5 保持一致,为每百万 token 输入3美元/输出15美元。目前,Sonnet 4.6 已成为 claude.ai 和 Claude Cowork 免费及 Pro 计划的默认模型。
在编码与推理能力上,Sonnet 4.6 显著减少了幻觉和“偷懒”现象,指令遵循能力更强。早期测试显示,在 Claude Code 中约 70% 的用户更偏好 Sonnet 4.6 而非 Sonnet 4.5,甚至有 59% 的用户认为其表现优于此前的旗舰模型 Opus 4.5。此外,该模型在长周期规划任务中表现出色,能够有效处理整个代码库或长篇文档。
计算机使用能力是本次升级的另一重点。在 OSWorld 基准测试中,Sonnet 4.6 在处理复杂电子表格和多步骤网页表单等任务上已接近人类水平。同时,其抗提示注入攻击能力较前代大幅提升,安全性评估表现与 Opus 4.6 相当。该模型现已上线所有 Claude 平台、API 及主要云平台。