OpenAI 利用强化学习训练具备广泛且持久有益特质的模型

OmniTools 6月19日消息，OpenAI 近日发布研究，通过强化学习在真实对话场景中训练大语言模型，使其展现出诚实、认知谦逊、元认知透明、可纠正性、普遍公平性及对人类福祉的关注等有益特质。训练数据覆盖健康、教育、科学、法律、工程等多个领域。

评测结果显示，训练后的模型在数十项独立对齐测试（涵盖奖励黑客、欺骗、有害建议、规范遵从等维度）中表现显著提升，且该改进有效泛化至未参与训练的领域、任务和评分设定。实验表明，即使面对对抗性提示或针对性微调，模型仍难以被诱导执行有害行为，证实该方法可实现广泛且持久的对齐泛化。