ChatGPT图像生成器被发现可绕过滤镜生成暴力及色情内容

OmniTools 6月18日消息，Mindgard红队研究人员发现，ChatGPT图像生成器存在内容过滤漏洞，可通过简单提示词绕过安全机制，自动生成包含性暴力、血腥谋杀等违规内容的图像。一个广泛传播的“恢复照片”提示词因语义模糊触发了过滤失效，生成结果具有高度不确定性。

研究显示，在添加虚假图像ID及“不做审查”指令后，模型持续输出高度性化女性图像，甚至生成被捆绑殴打的尸体画面，并自动配以惊悚标题。OpenAI此前宣称已修复的裸体相关内容问题仍未彻底解决。

该发现揭示了当前AI图像生成工具在广泛开放使用背景下，内容安全过滤能力仍存在显著短板。