OmniTools 5月20日消息,Anthropic 宣布启动“拓宽前沿AI对话”计划,旨在通过跨传统、跨学科交流,深化对AI系统道德形成机制的理解。首批对话已与来自十五个以上宗教及跨文化传统的学者、神职人员、哲学家和伦理学家展开。
该计划聚焦于AI系统的“品格塑造”问题,探讨如何在训练中系统性地强化有益特质、抑制如谄媚等失准行为。团队借鉴人类道德发展理论,实验引入“伦理承诺提示工具”并嵌入 Claude 决策流程;初步内部对齐评估显示,该工具显著降低了模型的错位行为发生率。
Anthropic 表示,相关探索不旨在将模型对齐单一世界观,而是力求从宗教、世俗、政治等多元视角中平等汲取深度思考。后续将扩展至法律学者、心理学家、作家及公民机构,进一步探讨AI对工作形态、制度结构与权力分布的广泛影响。