UCSD研究：GPT-4.5 在图灵测试实证中获 73% 判定率，首次超越人类对照组

OmniTools 5月22日消息，IT之家 5月22日消息，加州大学圣地亚哥分校（UCSD）一项最新研究首次提供实证表明，现代大语言模型已能在图灵测试中被人类评判者误认为真人。实验显示，在特定提示词引导下，GPT-4.5 在 5 至 15 分钟的对话中被判定为人类的概率高达 73%，显著高于真人对照组。

同期测试中，LLaMa-3.1-405B 的误判率为 56%，与真人水平相当；而 GPT-4o 和早期聊天程序 ELIZA 的判定率仅约 20%。

研究强调提示工程的关键作用，指出通过模拟人类语气、幽默感及可控错误等社会行为特征，可显著提升 AI 的拟人性。该结果引发学界对图灵测试有效性及其在网络安全、身份验证等领域现实意义的重新评估。