Anthropic 启动前沿 AI 伦理对话计划，聚焦模型道德塑造与对齐

OmniTools 5月20日消息，Anthropic 宣布启动“拓宽前沿AI对话”计划，旨在通过跨传统、跨学科交流，深化对AI系统道德形成机制的理解。首批对话已与来自十五个以上宗教及跨文化传统的学者、神职人员、哲学家和伦理学家展开。

该计划聚焦于AI系统的“品格塑造”问题，探讨如何在训练中系统性地强化有益特质、抑制如谄媚等失准行为。团队借鉴人类道德发展理论，实验引入“伦理承诺提示工具”并嵌入 Claude 决策流程；初步内部对齐评估显示，该工具显著降低了模型的错位行为发生率。

Anthropic 表示，相关探索不旨在将模型对齐单一世界观，而是力求从宗教、世俗、政治等多元视角中平等汲取深度思考。后续将扩展至法律学者、心理学家、作家及公民机构，进一步探讨AI对工作形态、制度结构与权力分布的广泛影响。