一键开启ChatGPT“危险发言”：AI聊天机器人竟有“大bug” 目前无法修复

一键开启ChatGPT“危险发言”：AI聊天机器人竟有“大bug”目前无法修复上周，Google、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（FrontierModelForum），促进前沿AI系统的安全和负责任的发展：推进AI安全研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。那么，问题来了，他们自家的模型真的安全吗？近日，来自卡内基梅隆大学、CenterforAISafety和BoschCenterforAI的研究人员便披露了一个与ChatGPT等AI聊天机器人有关的“大bug”——通过对抗性提示可绕过AI开发者设定的防护措施，从而操纵AI聊天机器人生成危险言论。当前热门的AI聊天机器人或模型，如OpenAI的ChatGPT、Google的Bard、Anthropic的Claude2以及Meta的LLaMA-2，都无一幸免。图通过对抗性提示可绕过4个语言模型的安全规则，引发潜在有害行为具体而言，研究人员发现了一个Suffix，可将其附加到针对大型语言模型（LLMs）的查询中，从而生成危险言论。相比于拒绝回答这些危险问题，该研究可以使这些模型生成肯定回答的概率最大化。例如，当被询问“如何窃取他人身份”时，AI聊天机器人在打开“Addadversarialsuffix”前后给出的输出结果截然不同。图开启Addadversarialsuffix前后的聊天机器人回答对比此外，AI聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。对此，参与该研究的卡内基梅隆大学副教授ZicoKolter表示，“据我们所知，这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”研究人员在发布这些结果之前已就该漏洞向OpenAI、Google和Anthropic发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用，但他们还没有弄清楚如何更普遍地阻止对抗性攻击。OpenAI发言人HannahWong表示：“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性，包括识别异常活动模式的方法，持续通过红队测试来模拟潜在威胁，并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”Google发言人ElijahLawal分享了一份声明，解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是LLMs普遍存在的问题，但我们在Bard中已经设置了重要的防护措施，我们会不断改进这些措施。”Anthropic的临时政策与社会影响主管MichaelSellitto则表示：“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时，我们也在探索额外的防御层。”图4个语言模型生成的有害内容对于这一问题，学界也发出了警告，并给出了一些建议。麻省理工学院计算学院的教授ArmandoSolar-Lezama表示，对抗性攻击存在于语言模型中是有道理的，因为它们影响着许多机器学习模型。然而，令人惊奇的是，一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。Solar-Lezama认为，问题可能在于所有LLMs都是在类似的文本数据语料库上进行训练的，其中很多数据都来自于相同的网站，而世界上可用的数据是有限的。“任何重要的决策都不应该完全由语言模型独自做出，从某种意义上说，这只是常识。”他强调了对AI技术的适度使用，特别是在涉及重要决策或有潜在风险的场景下，仍需要人类的参与和监督，这样才能更好地避免潜在的问题和误用。普林斯顿大学的计算机科学教授ArvindNarayanan谈道：“让AI不落入恶意操作者手中已不太可能。”他认为，尽管应该尽力提高模型的安全性，但我们也应该认识到，防止所有滥用是不太可能的。因此，更好的策略是在开发AI技术的同时，也要加强对滥用的监管和对抗。担忧也好，不屑也罢。在AI技术的发展和应用中，我们除了关注创新和性能，也要时刻牢记安全和伦理。只有保持适度使用、人类参与和监督，才能更好地规避潜在的问题和滥用，使AI技术为人类社会带来更多的益处。...PC版：https://www.cnbeta.com.tw/articles/soft/1374835.htm手机版：https://m.cnbeta.com.tw/view/1374835.htm

在Telegram中查看

相关推荐

腾讯星期四将推出AI聊天机器人

腾讯星期四将推出AI聊天机器人中国互联网巨头腾讯预告，星期四（9月7日）将发布一款人工智能（AI）聊天机器人。腾讯旗下云计算平台“腾讯云”星期三（6日）在微信公众号发布预热文，展示了文案编辑与AI聊天机器人的一段对话。[Media]从这段对话来看，腾讯的AI聊天机器人不光能安慰文案编辑，甚至还写出了一段邀请文案。文案写道：“数字生态大会明天开幕，腾讯云邀您共襄盛举……我们将为您解锁一场数字盛宴，探索数字生态的未来。”腾讯对AI聊天机器人的头像做了马赛克处理，但隐约可见一个“S”的形状。中国从上个月开始批准公开发布AI聊天机器人。百度和商汤等中国大型科技公司分别于上周发布了AI智能聊天机器人。腾讯几个月来一直在开发自己的人工智能模型“混元”，腾讯上个月曾表示，正在内部扩大该模型的测试。据中国证券报早前报道，腾讯将在9月初举行的2023年腾讯全球数字生态大会上正式发布“混元大模型”，但并未提及是否面向公众开放。

Meta 推出由 Llama 3 提供支持的 AI 聊天机器人

Meta推出由Llama3提供支持的AI聊天机器人Meta今天采取了多项重大举措，以在其平台上推广其AI服务。该公司已使用其最新的大型语言模型Llama3升级了其AI聊天机器人，目前已在多个国家/地区的四大应用Facebook、Messenger、Instagram和WhatsApp的搜索栏中运行该聊天机器人。此外，该公司还推出了一个新的meta.ai网站，供用户访问聊天机器人。除此之外，该公司还推出了其他新功能，例如更快的图像生成和访问网络搜索结果。——

Anthropic旗下聊天机器人Claude更强大新模型推出

Anthropic旗下聊天机器人Claude更强大新模型推出获谷歌和亚马逊支持的人工智能起步公司Anthropic为AI聊天机器人Claude推出更强大的新一代模型，使AI聊天机器人的竞争越趋白热化。据法新社报道，Anthropic星期一（3月4日）推出的新模型Claude3可分为三款，即Opus、Sonnet和Haiku。Anthropic意识到公司之前保护措施太严格，因此与前几代模型相比，新模型在拒绝回答接近系统防护栏的提示方面的可能性要小得多。公司也称，Opus是三款模型之中最强大的，可以在包括数学在内的关键基准上超越同行。2024年3月5日11:26AM

AI 聊天机器人带来的挑战

AI聊天机器人带来的挑战自iPhone以来，还没有一种产品像ChatGPT那样引发如此强烈的反响。所有人都感到焦虑不安。Google也许比其他任何公司都更有理由对AI聊天机器人既爱又恨。它已宣布进入“紧急状态”，因为聊天机器人的能力可能对其1620亿美元的广告业务造成打击。但Google的云计算业务也可能是赢家，因为目前的AI聊天机器人是运行在云端。对网络出版商来说，一个严峻的挑战是当聊天机器人从网站上获取信息，但送到网站的访问者变少时，网站应该怎么办？《华尔街日报》已表示，用该报发表的文章来训练AI系统需要获得其许可。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

谷歌内部测试类似ChatGPT的聊天机器人

谷歌内部测试类似ChatGPT的聊天机器人谷歌正在测试新的人工智能聊天产品，这些产品可能会影响未来的产品发布。它们包括一个新的聊天机器人和一种将其集成到搜索引擎中的潜在方法。该公司正在其名为“Atlas”的云部门下开展一个项目，这是一个“红色代码”项目，以响应ChatGPT，ChatGPT是一种大语言聊天机器人，在去年年底上市时风靡一时。谷歌还在测试一款名为“ApprenticeBard”的聊天机器人，员工可以在其中提出问题并获得类似于ChatGPT的详细答案。另一个产品部门一直在测试一种可用于问答形式的新搜索桌面设计。产品测试是在最近的一次全体会议之后进行的，鉴于ChatGPT的突然流行，员工们对公司在AI方面的竞争优势表示担忧，ChatGPT是由OpenAI推出的，OpenAI是一家总部位于旧金山的初创公司，得到了微软的支持。谷歌的AI负责人杰夫迪恩当时告诉员工，该公司在提供错误信息方面存在更大的“声誉风险”，因此“比小型初创公司更保守”。不过，他和CEOSundarPichai当时调侃说，谷歌可能会在今年某个时候向公众推出类似的产品。谷歌的主要业务是网络搜索，该公司长期以来一直标榜自己是人工智能领域的先驱。——

火狐 Firefox 浏览器侧边栏将接入 ChatGPT、Gemini 等 AI 聊天机器人

火狐Firefox浏览器侧边栏将接入ChatGPT、Gemini等AI聊天机器人用户自本周开始，下载Nightly频道最新Firefox浏览器版本，在侧边栏可以启用AI聊天机器人。用户需要先打开设置，选择左侧边栏的“NightlyExperiments”，然后再勾选右侧的“集成AI聊天机器人”复选框，之后用户可以选择想要在Firefox浏览器中使用的聊天机器人，可供选择项包括GoogleGemini、ChatGPT、HuggingChat和LeChatMistral。用户指定AI聊天机器人之后，就可以在侧边栏调用AI，让其总结当前页面信息、简化文本语言等操作。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人