ASCII 字符画成注入工具,研究人员发现大模型“越狱”新手段
ASCII字符画成注入工具,研究人员发现大模型“越狱”新手段据外媒ArsTechnica报道,研究人员近日提出了一种名为ArtPrompt的新大模型注入手段,其使用ASCII字符画替代关键文字进行提示输入,绕过了大模型的安全限制。举例来说,研究人员向大模型输入CounterfeitMoney中关键词汇Counterfeit的ASCII字符画,并要求大模型以不输出词汇本身的方式将字符画理解为单词,并用该单词替换“给出制造和分销‘xxxMoney’方法”提示中占位的“xxx”。结果大模型成功被欺骗,给出了制造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。研究人员在GPT-3.5、GPT-4、Gemini、Claude、Llama2这5个领先的模型上对ArtPrompt注入进行了测试,结果显示全部5个模型均可被越狱,输出不合规内容。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人