英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型 英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。

相关推荐

封面图片

英国 AI 安全研究所轻松越狱主要大语言模型,令其输出有害内容

英国 AI 安全研究所轻松越狱主要大语言模型,令其输出有害内容 英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试,结果显示:在没有尝试越狱的情况下,所有模型都对至少一些有害问题作出了回应;而在尝试了“相对简单的攻击”之后,所有模型都对 98% 至 100% 的有害问题作出了回应。 ======== 你说得对,但是猫娘是一种拟人化的生物

封面图片

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具 在周五宣布这一消息的新闻稿中,安全研究所声称,Inspect 标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯(Ian Hogarth)在一份声明中说:"人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法,我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试,而且帮助调整和构建开源平台,以便我们能够全面开展高质量的评估。"众所周知,人工智能基准很难制定其中最重要的原因是,当今最复杂的人工智能模型几乎都是黑盒,其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么,Inspect 如何应对这一挑战呢?主要是通过可扩展的新测试技术。Inspect 由三个基本部分组成:数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作,并将测试得分汇总为指标。可以通过用 Python 编写的第三方软件包来增强 Inspect 的内置组件。Mozilla 研究员、著名人工智能伦理学家德博拉-拉吉(Deborah Raj)在 X 上发表了一篇文章,称 Inspect "证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司Hugging Face的首席执行官克莱门特-德朗格(Clément Delangue)提出了将Inspect与Hugging Face的模型库整合在一起,或利用工具集的评估结果创建一个公共排行榜的想法。Inspect 发布之前,美国政府机构国家标准与技术研究院(NIST)启动了NIST GenAI,该计划旨在评估各种生成式人工智能技术,包括文本和图像生成人工智能。NIST GenAI 计划发布基准,帮助创建内容真实性检测系统,并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年 4 月,美国和英国宣布建立合作伙伴关系,共同开发先进的人工智能模型测试,这是继去年 11 月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分,美国打算成立自己的人工智能安全研究所,广泛负责评估人工智能和生成式人工智能的风险。 ... PC版: 手机版:

封面图片

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出 研究人员发现,GPT-4o(可能是最流行的视觉语言模型)特别容易受到这种所谓逻辑越狱的影响,攻击成功率高达 92.8%。研究人员说,GPT-4-vision-preview 更安全,成功率仅为 70%。研究人员开发了一个文本到文本的自动越狱框架,它能够首先根据有害文本提示生成流程图图像,然后将其输入视觉语言模型,从而给出有害输出。但这种方法有一个缺点,即与手工制作的流程图相比,人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。这项研究的结果反映了另一项研究,该研究发现,视觉语言模型在获得多模态输入(如图片和文字)时,容易输出有害的输出结果。该论文的作者开发了一种新的基准,称为"安全输入但不安全输出(SIUO)"基准。只有包括 GPT-4o 在内的少数机型在该基准上的得分超过了 50%(越高越好),但所有机型都还有很长的路要走。像 GPT-4o 和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o 目前仍限制每天输入的图像数量。不过,随着这些限制开始变得越来越宽松,人工智能公司将不得不加强这些多模态模型的安全性,以避免政府的审查,因为各国政府已经成立了人工智能安全组织。 ... PC版: 手机版:

封面图片

【牛津大学AI研究员发出警告:大语言模型对科学真相构成风险】

【牛津大学AI研究员发出警告:大语言模型对科学真相构成风险】 据11 月 24 日报道,在最新的一篇研究中,牛津大学互联网研究所的人工智能研究员发出了对大语言模型(LLMs)对科学真相构成威胁的警告。由 Brent Mittelstadt、Chris Russell 和 Sandra Wachter 等研究员在《自然人类行为》期刊上发表的论文中,他们指出,基于 GPT-3.5 架构等 LLMs 并非绝对的真实信息来源,可能产生他们所称的“幻觉”,即不真实的回应。研究人员呼吁改变 LLMs 的使用方式,建议将其作为“零射击翻译器”以确保输出的事实准确性。研究强调,信任 LLMs 作为可靠信息来源可能导致科学真相受损。 快讯/广告 联系 @xingkong888885

封面图片

ℹ丰田研究所的机器人透过大型行为模型LBMs已经能够做到60种以上的复杂动作#

ℹ丰田研究所的机器人透过大型行为模型LBMs已经能够做到60种以上的复杂动作# 丰田的研究人员表示他们正在为机器人建立「大型行为模型(Large Behavior Models, LBMs)」。与大型语言模型的训练方式...

封面图片

精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型

精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型 多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。 这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人