研究发现流程图图像可以诱骗GPT-4o生成有害文本输出
研究发现流程图图像可以诱骗GPT-4o生成有害文本输出 研究人员发现,GPT-4o(可能是最流行的视觉语言模型)特别容易受到这种所谓逻辑越狱的影响,攻击成功率高达 92.8%。研究人员说,GPT-4-vision-preview 更安全,成功率仅为 70%。研究人员开发了一个文本到文本的自动越狱框架,它能够首先根据有害文本提示生成流程图图像,然后将其输入视觉语言模型,从而给出有害输出。但这种方法有一个缺点,即与手工制作的流程图相比,人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。这项研究的结果反映了另一项研究,该研究发现,视觉语言模型在获得多模态输入(如图片和文字)时,容易输出有害的输出结果。该论文的作者开发了一种新的基准,称为"安全输入但不安全输出(SIUO)"基准。只有包括 GPT-4o 在内的少数机型在该基准上的得分超过了 50%(越高越好),但所有机型都还有很长的路要走。像 GPT-4o 和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o 目前仍限制每天输入的图像数量。不过,随着这些限制开始变得越来越宽松,人工智能公司将不得不加强这些多模态模型的安全性,以避免政府的审查,因为各国政府已经成立了人工智能安全组织。 ... PC版: 手机版:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人