返回行业动态

OpenAI 利用强化学习训练具备广泛且持久有益特质的模型

2026/06/18 22:06
查看原文

OmniTools 6月19日消息,OpenAI 近日发布研究,通过强化学习在真实对话场景中训练大语言模型,使其展现出诚实、认知谦逊、元认知透明、可纠正性、普遍公平性及对人类福祉的关注等有益特质。训练数据覆盖健康、教育、科学、法律、工程等多个领域。

评测结果显示,训练后的模型在数十项独立对齐测试(涵盖奖励黑客、欺骗、有害建议、规范遵从等维度)中表现显著提升,且该改进有效泛化至未参与训练的领域、任务和评分设定。实验表明,即使面对对抗性提示或针对性微调,模型仍难以被诱导执行有害行为,证实该方法可实现广泛且持久的对齐泛化。