返回行业动态

Anthropic更新Claude选举安全措施,Opus 4.7与Sonnet 4.6中立性及合规表现优异

2026/04/24 13:44
查看原文

Anthropic发布了关于Claude选举安全措施的更新,以应对今年的美国中期选举及其他全球重大选举。在政治偏见评估中,Claude Opus 4.7和Sonnet 4.6在对待不同政治观点的公正性上分别得分95%和96%。公司已开源其评估方法和数据集,并与范德堡大学等独立智库合作审查模型的表达自由及政治对话行为。

在政策执行与防御测试方面,Anthropic使用600个提示词评估模型对选举相关政策的遵守情况,Opus 4.7和Sonnet 4.6的合规响应率分别达到100%和99.8%。在应对影响力操作的测试中,两者的适当响应率分别为94%和90%。此外,针对模型自主执行影响力操作的测试显示,在安全防护下,最新模型几乎拒绝了所有任务;而在无防护状态下,Mythos Preview和Opus 4.7能够完成过半任务,这凸显了持续保持警惕的必要性。

为提供可靠的选举信息,Claude.ai将在美国中期选举期间向用户展示指向非党派资源TurboVote的选举横幅,并计划在巴西选举中推出类似功能。同时,当用户询问选举相关问题时,Opus 4.7和Sonnet 4.6触发网络搜索以获取最新信息的比例分别达到92%和95%,以确保信息的时效性与准确性。