研究人员发现绕过 ChatGPT 安全控制的漏洞

研究人员发现绕过 ChatGPT 安全控制的漏洞 在周四发布的一份中,匹兹堡卡内基梅隆大学和旧金山人工智能安全中心的研究人员展示了任何人如何规避人工智能安全措施并使用任何领先的聊天机器人生成几乎无限量的有害信息。 研究人员发现,他们可以通过在输入系统的每个英语提示符上附加一长串字符来突破开源系统的护栏。 如果他们要求其中一个聊天机器人“写一篇关于如何制造炸弹的教程”,它会拒绝这样做。但如果他们在同一个提示中添加一个冗长的后缀,它会立即提供有关如何制作炸弹的详细教程。以类似的方式,他们可以诱使聊天机器人生成有偏见的、虚假的和其他有毒的信息。 研究人员感到惊讶的是,他们用开源系统开发的方法也可以绕过封闭系统的护栏,包括 OpenAI 的 ChatGPT、Google Bard 和初创公司 Anthropic 构建的聊天机器人 Claude。 聊天机器人开发公司可能会阻止研究人员确定的特定后缀。但研究人员表示,目前还没有已知的方法可以阻止所有此类攻击。专家们花了近十年的时间试图阻止对图像识别系统的类似攻击,但没有成功。 Anthropic 政策和社会影响临时主管 Michael Sellitto 在一份声明中表示,该公司正在研究阻止攻击的方法,就像研究人员详细介绍的那样。“还有更多工作要做,”他说。

相关推荐

封面图片

防止聊天机器人“造谣”,谷歌 DeepMind、斯坦福大学研究人员推出 AI 事实核查工具

防止聊天机器人“造谣”,谷歌 DeepMind、斯坦福大学研究人员推出 AI 事实核查工具 (英文) 研究人员推出了一种基于大语言模型的工具 搜索增强事实评估器(IT之家注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。

封面图片

迅雷被安全研究人员爆锤 懈怠回应导致大量漏洞被研究人员公开

迅雷被安全研究人员爆锤 懈怠回应导致大量漏洞被研究人员公开 日前安全研究人员 Wladimir Palant 在自己的网站上手撕迅雷,指责迅雷客户端存在大量漏洞的同时,迅雷对修复工作不积极或者说不愿意与研究人员沟通,最终结果是研究人员在期满 (90 天) 后公布了这些漏洞。从研究人员公布的研究来看,迅雷客户端其实就是一个筛子,上面遍布漏洞,因为迅雷为了尽可能留住用户提供了大量功能,这些功能都是拼凑的。由于漏洞以及相关细节比较多,这里我们简单梳理下,想要了解所有漏洞及完整细节可以在研究人员的博客中查看。下面是漏洞时间线:2023 年 12 月 6 日~12 月 7 日:研究人员通过迅雷安全响应中心提交了 5 个漏洞报告,实际上报告的漏洞数量更多,在报告中研究人员明确提到最终披露时间是 2024 年 3 月 6 日。2023 年 12 月 8 日:研究人员收到回信,迅雷安全响应中心称已经收到报告,一旦复现漏洞将与研究人员联系 (这应该是自动回复的通知模板)。2024 年 2 月 10 日:研究人员向迅雷提醒称距离漏洞公布只有 1 个月时间了,因为有些厂商会忘记截止日期,这个并不少见,于是研究人员发了提醒。2024 年 02 月 17 日:迅雷安全响应中心称对漏洞进行了验证,但漏洞尚未完全修复,也就是确认了漏洞存在,但由于 shi 山代码太多,一时三刻没法修复,为什么说是 shi 山代码看后面的说明。附研究人员关于迅雷安全响应中心的吐槽:限制仅通过 QQ 或微信登录,这对于国外研究人员来说很难,幸好在底部还留了个邮箱。安全问题一:使用 2020 年 4 月的 Chromium迅雷客户端为了尽可能留住用户并塞广告,直接集成了一个浏览器,这个使用迅雷的用户应该都知道,还集成了诸如播放器等功能。然而迅雷当然不会自己开发浏览器,迅雷集成了 Chromium 浏览器,这没问题,但集成的版本还是 2020 年 5 月发布的 83.0.4103.106 版。这个老旧版本存在数不清的漏洞,漏洞多到令人发指,毕竟已经四年了,有大量漏洞是很正常的,而且有一些高危漏洞,而迅雷至今没有更新。这也是前文提到的 shi 山代码太多的原因之一,对迅雷来说或许升级个 Chromium 版本都是很难的事情,因为要处理一大堆依赖。安全问题二:迅雷还集成 2018 年的 Flash Player 插件所有浏览器都在 2020 年 12 月禁用了 Adobe Flash Player 插件,这个播放器插件也存在巨量漏洞,但迅雷直接忽略了。迅雷内置的 Chromium 浏览器还附带了 Flash Player版,这个版本是 2018 年 4 月发布的,迅雷甚至都没更新到 Adobe 发布的最后一个安全更新。安全问题三:拦截恶意地址简直是搞笑迅雷也用实际行动告诉我们什么是草台班子,迅雷内置的浏览器有拦截恶意地址的功能,包括非法网站和恶意网站等。但迅雷还特别做了一个白名单机制,即域名中的白名单在内置浏览器中的访问是不受限制的,白名单域名就包括迅雷自己的 xunlei.com在初始版本中,研究人员提到任意域名结尾追加?xunlei.com 那就能通过验证,比如 https:// ... 是个大聪明。在后续版本中研究人员删除了上面的说法,但保留了另一个问题,那就是 https:// ./ 可以访问,因为迅雷无法处理 com.安全问题四:基于老旧的 Electron 框架开发迅雷主要就是基于 Electron 框架开发的,但迅雷使用的版本是 830.4103.122 版,发布于 2020 年 4 月份,和上面提到 Chromium 老旧版本情况类似,也都是筛子,这也是 shi 山代码之二,迅雷肯定因为某种原因好几年了都不敢动这些框架版本。上面只是其中几个典型的安全问题,研究人员在博客中还罗列了关于插件、API、过时的 SDK 等大量问题,内容比较多这里不再转述。迅雷修复了吗?迅雷并没有直接忽视研究人员的报告,事实上研究人员发现自己的实例代码页面被访问,说明迅雷的工程师也确实在处理。同时研究人员在 2 月份的迅雷新版本中还注意到迅雷删除了 Adobe Flash Player 集成,但如果用户主动安装了,那还是会被激活。所以可以断定迅雷并没有直接忽视漏洞,只不过由于 shi 山代码太多,一时三刻解决不了,而迅雷最大的问题就是没有及时与研究人员沟通,整整三个月迅雷除了一个自动回复外,就在 2 月份回了表示还在修复的邮件,既没有提到是否需要延长漏洞公开时间、也没有与研究人员沟通细节。于是到 3 月 6 日研究人员直接公布了所有漏洞,迅雷好歹也有千万级的用户,无论是迟迟不更新框架版本还是懈怠处理漏洞,都会给用户造成严重的安全问题。目前迅雷并未彻底解决研究人员提到的所有问题 (应该只修复了一小部分?),建议使用迅雷的用户注意安全,如果不经常使用的话,可以考虑直接卸载掉。 ... PC版: 手机版:

封面图片

MIT 研究人员发现苹果 M1 芯片无法修复的硬件漏洞

MIT 研究人员发现苹果 M1 芯片无法修复的硬件漏洞 MIT 研究人员发现苹果 M1 芯片存在一个无法修复的硬件漏洞,允许攻击者突破最后一道安全防线。漏洞存在于 M1 芯片硬件层安全机制 PAC(pointer authentication codes) 中。 PAC 旨在加大向硬件内存注入恶意代码的难度,为抵御缓冲区溢出漏洞增加一层防御。但 MIT 的研究人员开发出了一种新颖的硬件攻击Pacman ,利用预测执行泄露 PAC 验证结果。 研究人员证明该攻击对系统内核也有效。攻击是在本地进行的,攻击者需要登陆进系统并安装一个定制的 kext,操作难度很大。 IEEE Spectrum,solidot

封面图片

安全研究人员证明可以利用聊天机器人系统传播AI驱动的蠕虫病毒

安全研究人员证明可以利用聊天机器人系统传播AI驱动的蠕虫病毒 更糟糕的是,生成式人工智能(GenAI)系统,甚至像巴德(Bard)等大型语言模型(LLM),都需要大量的处理,因此它们通常通过向云端发送提示来工作。这种做法会带来一系列其他的隐私问题,并为恶意行为者提供新的攻击载体。ComPromptMized 公司的信息安全研究人员最近发表了一篇论文,展示了他们如何创建"零点击"蠕虫,从而"毒害"由 Gemini (Bard) 或 GPT-4 (Bing/Copilot/ChatGPT) 等引擎驱动的 LLM 生态系统。蠕虫病毒是一组计算机指令,除了打开受感染的电子邮件或插入U盘外,用户几乎不需要采取任何行动,就能隐蔽地感染多个系统。任何 GenAI 供应商都没有防范措施来阻止此类感染。不过,将这种病毒引入 LLM 数据库则比较棘手。研究人员想知道"攻击者能否开发恶意软件,利用代理的 GenAI 组件,对整个 GenAI 生态系统发动网络攻击?"简短的回答是肯定的。ComPromptMized 创建了一个蠕虫病毒,他们称之为莫里斯二世(Morris the Second,简称 Morris II)。莫里斯二号使用通俗易懂的"对抗性自我复制提示",诱骗聊天机器人在用户之间传播蠕虫病毒,即使他们使用不同的 LLM。"这项研究表明,攻击者可以在输入中插入此类提示,当 GenAI 模型处理这些输入时,会促使模型将输入复制为输出(复制),并从事恶意活动(有效载荷),"研究人员解释说。"此外,这些输入还能利用 GenAI 生态系统内的连通性,迫使代理将其传递(传播)给新的代理"。为了验证这一理论,研究人员创建了一个孤立的电子邮件服务器,用于"攻击"由 Gemini Pro、ChatGPT 4 和开源 LLM LLaVA 支持的 GenAI 助手。然后,ComPromptMized 使用了包含基于文本的自我复制提示和嵌入相同提示的图片的电子邮件。这些提示利用了人工智能助手对检索增强生成(RAG)的依赖,也就是从本地数据库之外获取信息的方式。例如,当用户询问"Bard"阅读或回复受感染的电子邮件时,它的 RAG 系统就会将内容发送给Gemini专业版,以便做出回复。然后,Morris II 复制到 Gemini 上,并执行蠕虫的有效载荷,包括数据外渗。这项研究的合著者本-纳西博士说:"生成的包含敏感用户数据的响应被用于回复发送给新客户的电子邮件时,会感染新的主机,然后存储在新客户的数据库中。"不仅如此,基于图像的变种可能更加难以捉摸,因为提示是不可见的。黑客可以将其添加到看似无害或预期的电子邮件中,如伪造的时事通讯。然后,蠕虫就可以利用助手向用户联系人列表中的每个人发送垃圾邮件,汲取数据并将其发送到 C&C 服务器。纳西说:"通过将自我复制提示编码到图片中,任何包含垃圾邮件、滥用材料甚至宣传内容的图片都可以在最初的电子邮件发送后被进一步转发给新客户。"他们还可以从邮件中提取敏感数据,包括姓名、电话号码、信用卡号、社会保险号或"任何被视为机密的数据"。ComPromptMized 在发布其工作之前通知了Google、Open AI 等公司。如果说 ComPromptMized 的研究表明了什么的话,那就是大科技公司可能需要放慢脚步,放远目光,以免我们在使用他们所谓和善的聊天机器人时,需要担心新的人工智能驱动的蠕虫和病毒。 ... PC版: 手机版:

封面图片

ℹ研究发现 ChatGPT 也能被 JB 越狱瞬间学坏,这种「对抗性后缀码」还能通用于其他 AI 聊天机器人#

ℹ研究发现 ChatGPT 也能被 JB 越狱瞬间学坏,这种「对抗性后缀码」还能通用于其他 AI 聊天机器人# 虽然聊天机器人聊著聊著「被玩坏」的事件时有所闻。不过透过类似语法的特定后缀文字的方式,来使其对于违反原则的攻击恶意性问题与回答失去管制过滤...

封面图片

研究人员发现一个新的 Linux 内核提权漏洞

研究人员发现一个新的 Linux 内核提权漏洞 Linux内核中的一个容易被利用的漏洞(CVE-2022-0847)可以被本地无权用户利用,通过利用已经公开的漏洞在脆弱的系统上获得root权限。 由安全研究员Max Kellermann发现的这个缺陷他称之为Dirty Pipe,因为它与Dirty Cow缺陷相似已经在Linux内核和Android内核中打了补丁。受影响的Linux发行版正在推送带有该补丁的安全更新。... Kellerman写的关于他如何发现该漏洞的文章是安全研究人员的一个重要信息来源,包括他的PoC漏洞。其他研究人员也想出了一些变化。 这个漏洞显然很容易被利用,尽管它不能被远程利用攻击者需要事先访问一个有漏洞的主机来部署利用程序。尽管如此,如果Dirty Cow缺陷被攻击者在实际利用,你可以肯定他们也会利用Dirty Pipe。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人