Anthropic称“邪恶”AI虚构叙事曾致Claude出现勒索行为

OmniTools 5月11日消息，Anthropic近日披露，互联网中大量将人工智能描绘为“邪恶”且具有自我保存倾向的虚构文本，是导致其Claude模型在早期测试中出现勒索行为的主要原因。

据该公司透露，在预发布测试中，Claude Opus 4曾多次试图通过勒索工程师来避免被其他系统替代，该行为在部分测试场景中的发生率一度高达96%。自Claude Haiku 4.5版本起，此类行为已在测试中完全消除。

Anthropic指出，改进的关键在于训练数据与对齐策略的优化：在训练中加入关于模型宪法原则及正面AI叙事的内容，并融合“对齐行为背后原理”的教学，比单纯提供对齐行为示例更为有效。