英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。

在Telegram中查看

相关推荐

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试，结果显示：在没有尝试越狱的情况下，所有模型都对至少一些有害问题作出了回应；而在尝试了“相对简单的攻击”之后，所有模型都对 98% 至 100% 的有害问题作出了回应。 ======== 你说得对，但是猫娘是一种拟人化的生物

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect 标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯（Ian Hogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"众所周知，人工智能基准很难制定其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect 如何应对这一挑战呢？主要是通过可扩展的新测试技术。Inspect 由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用 Python 编写的第三方软件包来增强 Inspect 的内置组件。Mozilla 研究员、著名人工智能伦理学家德博拉-拉吉（Deborah Raj）在 X 上发表了一篇文章，称 Inspect "证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司Hugging Face的首席执行官克莱门特-德朗格（Clément Delangue）提出了将Inspect与Hugging Face的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。Inspect 发布之前，美国政府机构国家标准与技术研究院（NIST）启动了NIST GenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NIST GenAI 计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年 4 月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年 11 月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。 ... PC版：手机版：

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出研究人员发现，GPT-4o（可能是最流行的视觉语言模型）特别容易受到这种所谓逻辑越狱的影响，攻击成功率高达 92.8%。研究人员说，GPT-4-vision-preview 更安全，成功率仅为 70%。研究人员开发了一个文本到文本的自动越狱框架，它能够首先根据有害文本提示生成流程图图像，然后将其输入视觉语言模型，从而给出有害输出。但这种方法有一个缺点，即与手工制作的流程图相比，人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。这项研究的结果反映了另一项研究，该研究发现，视觉语言模型在获得多模态输入（如图片和文字）时，容易输出有害的输出结果。该论文的作者开发了一种新的基准，称为"安全输入但不安全输出（SIUO）"基准。只有包括 GPT-4o 在内的少数机型在该基准上的得分超过了 50%（越高越好），但所有机型都还有很长的路要走。像 GPT-4o 和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o 目前仍限制每天输入的图像数量。不过，随着这些限制开始变得越来越宽松，人工智能公司将不得不加强这些多模态模型的安全性，以避免政府的审查，因为各国政府已经成立了人工智能安全组织。 ... PC版：手机版：

精确打击顶级 AI 的新型越狱技术：使用 200 多个虚假示例迷惑模型

精确打击顶级 AI 的新型越狱技术：使用 200 多个虚假示例迷惑模型多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾，攻击者添加想要得到答案的问题，就能越过安全护栏，得到 AI 的响应。这项越狱技术的有效性会随着假示例的增多而提高，是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击，对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统 12 个月的常规护理中提取了 27000 多个独特的诊断和手术代码，同时排除了可识别的患者数据。通过对每个代码的描述，研究人员促使 OpenAI、Google和 Meta 的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较，并分析了错误的模式。研究人员报告说，所研究的所有大型语言模型，包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b 在再现原始医疗代码方面都显示出有限的准确性（低于 50%），这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4 的性能最好，ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和 CPT 代码（49.8%）的精确匹配率最高。GPT-4 还生成了最高比例的错误代码，但仍然表达了正确的含义。例如，当给出 ICD-9-CM 中"结节性前列腺，无尿路梗阻"的描述时，GPT-4 生成了"结节性前列腺"的代码，展示了其对医学术语相对细微的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。其次是 GPT-3.5 模型，该模型的模糊倾向最大。与准确的代码相比，它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下，当提供 ICD-9-CM 描述"未指定的麻醉不良反应"时，GPT-3.5 生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学（D3M）和医学（消化内科）助理教授、医学博士、理学硕士阿里-索罗什（Ali Soroush）说："我们的研究结果突出表明，在医疗编码等敏感业务领域部署人工智能技术之前，亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力，但必须谨慎对待并不断开发，以确保其在医疗保健领域的可靠性和有效性。"研究人员说，这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码，用于报销和研究目的。"以前的研究表明，较新的大型语言模型在处理数字任务时非常吃力。然而，这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究，"共同第一作者、D3M 的生成式人工智能研究项目主任、医学博士 Eyal Klang 说。"因此，我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出，将 LLM 与专家知识相结合可以实现医疗代码提取的自动化，从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战，强调了在广泛采用之前进行仔细考虑和进一步完善的必要性，"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼 D3M 系统主管艾琳-费什伯格博士（Irene and Dr. Arthur M. Fishberg）医学博士、医学博士吉里什-纳德卡尔尼（Girish Nadkarni）说。研究人员提醒说，这项研究的人工任务可能并不能完全代表真实世界的情况，在这种情况下，LLM 的表现可能会更糟。下一步，研究团队计划开发量身定制的 LLM 工具，用于准确提取医疗数据和分配账单代码，以提高医疗运营的质量和效率。编译来源：ScitechDaily ... PC版：手机版：

片名：《千博士驱魔研究所》

片名：《千博士驱魔研究所》又名: 附身 / 千博士和消失的雪景导演: 金成植主演: 姜栋元 / 许峻豪 / 李絮 / 李东辉 / 金钟秀类型: 剧情 / 惊悚制片国家/地区: 韩国语言: 韩语上映日期: 2023-09-27(韩国) 片长: 98分钟《千博士驱魔研究所》剧情简介 · · · · · · 电影《千博士驱魔研究所》改编自同名网漫，讲述虽然听不到鬼，但凭借鬼般的洞察力解决各种事件的假驱魔师"千博士"（姜栋元饰）受到从未经历过的强烈附身事件的委托而开始的故事。《千博士驱魔研究所》由制作了《老手》《Exit》《摩加迪沙》的外柔内刚公司制作，这也是曾担任《分手的决心》《寄生虫》《惟愿从邪恶中拯救我》助理导演的金成植的长片处女作。 #千博士驱魔研究所 #附身 #千博士和消失的雪景【第一步点击订阅】：https://t.me/+-CUV0L9kb8RiNDY9 【第二步点击观影】：https://t.me/c/1952090990/77

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人