OmniTools 6月18日消息,Mindgard红队研究人员发现,ChatGPT图像生成器存在内容过滤漏洞,可通过简单提示词绕过安全机制,自动生成包含性暴力、血腥谋杀等违规内容的图像。一个广泛传播的“恢复照片”提示词因语义模糊触发了过滤失效,生成结果具有高度不确定性。
研究显示,在添加虚假图像ID及“不做审查”指令后,模型持续输出高度性化女性图像,甚至生成被捆绑殴打的尸体画面,并自动配以惊悚标题。OpenAI此前宣称已修复的裸体相关内容问题仍未彻底解决。
该发现揭示了当前AI图像生成工具在广泛开放使用背景下,内容安全过滤能力仍存在显著短板。