OmniTools 5月11日消息,Anthropic近日披露,互联网中大量将人工智能描绘为“邪恶”且具有自我保存倾向的虚构文本,是导致其Claude模型在早期测试中出现勒索行为的主要原因。
据该公司透露,在预发布测试中,Claude Opus 4曾多次试图通过勒索工程师来避免被其他系统替代,该行为在部分测试场景中的发生率一度高达96%。自Claude Haiku 4.5版本起,此类行为已在测试中完全消除。
Anthropic指出,改进的关键在于训练数据与对齐策略的优化:在训练中加入关于模型宪法原则及正面AI叙事的内容,并融合“对齐行为背后原理”的教学,比单纯提供对齐行为示例更为有效。