英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具 在周五宣布这一消息的新闻稿中,安全研究所声称,Inspect 标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯(Ian Hogarth)在一份声明中说:"人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法,我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试,而且帮助调整和构建开源平台,以便我们能够全面开展高质量的评估。"众所周知,人工智能基准很难制定其中最重要的原因是,当今最复杂的人工智能模型几乎都是黑盒,其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么,Inspect 如何应对这一挑战呢?主要是通过可扩展的新测试技术。Inspect 由三个基本部分组成:数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作,并将测试得分汇总为指标。可以通过用 Python 编写的第三方软件包来增强 Inspect 的内置组件。Mozilla 研究员、著名人工智能伦理学家德博拉-拉吉(Deborah Raj)在 X 上发表了一篇文章,称 Inspect "证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司Hugging Face的首席执行官克莱门特-德朗格(Clément Delangue)提出了将Inspect与Hugging Face的模型库整合在一起,或利用工具集的评估结果创建一个公共排行榜的想法。Inspect 发布之前,美国政府机构国家标准与技术研究院(NIST)启动了NIST GenAI,该计划旨在评估各种生成式人工智能技术,包括文本和图像生成人工智能。NIST GenAI 计划发布基准,帮助创建内容真实性检测系统,并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年 4 月,美国和英国宣布建立合作伙伴关系,共同开发先进的人工智能模型测试,这是继去年 11 月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分,美国打算成立自己的人工智能安全研究所,广泛负责评估人工智能和生成式人工智能的风险。 ... PC版: 手机版:

相关推荐

封面图片

英国机构发布测试人工智能模型安全性的工具

英国机构发布测试人工智能模型安全性的工具 英国人工智能安全机构英国安全研究所发布了一套工具集,旨在通过让行业、研究机构和学术界更容易开发人工智能评估来“加强人工智能安全”。该工具集名为 Inspect,可在开源许可证 (特别是 MIT 许可证) 下使用,旨在评估人工智能模型的某些功能,包括模型的核心知识和推理能力,并根据结果生成分数。英国安全研究所声表示,Inspect 标志着“首次由国家支持的机构牵头的人工智能安全测试平台发布以供更广泛使用”。Inspect 由三个基本组件组成:数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器评估求解器的工作,并将测试中的分数汇总为指标。Inspect 的内置组件可以通过用 Python 编写的第三方包进行增强。   、、

封面图片

美国和英国将合作测试人工智能安全威胁模型

美国和英国将合作测试人工智能安全威胁模型 两国人工智能安全研究所之间的协议立即生效。美国商务部长吉娜-雷蒙多(Gina Raimondo)表示,美国政府"致力于与其他国家发展类似的伙伴关系,在全球范围内促进人工智能安全"。雷蒙多在一份声明中说:"这种合作关系将加速我们两家机构在各种风险方面的工作,无论是对我们的国家安全还是对我们更广泛的社会面。"通过该协议,两国承诺在技术研究、人员交流和信息共享方面开展合作。美国和英国的一个潜在合作伙伴是欧盟,欧盟通过了自己的人工智能系统使用全面法规。欧盟的人工智能法要求运行强大的人工智能模型的公司遵守安全标准。英国的人工智能安全研究所是在 11 月的全球人工智能峰会前夕成立的,包括美国副总统卡马拉-哈里斯在内的多位世界领导人在峰会上讨论了如何利用并在可能的情况下对该技术进行跨境监管。英国已经开始对一些模型进行安全测试,但目前还不清楚它是否能获得最近发布的版本。一些人工智能公司敦促英国人工智能安全研究所进一步明确时间表,以及在发现模型存在风险时的下一步措施。 ... PC版: 手机版:

封面图片

美英签署人工智能安全测试里程碑协议

美英签署人工智能安全测试里程碑协议 美国和英国签署了一项具有里程碑意义的人工智能协议,这两个盟国成为首批就如何测试和评估新兴人工智能模型风险进行正式合作的国家。英国科学大臣米歇尔•唐兰和美国商务部长吉娜•雷蒙多周一在华盛顿特区签署了这份协议,列出了两国政府将如何在人工智能安全方面汇集技术知识、信息和人才。该协议是全球首个关于人工智能安全的双边协议。该协议将特别使英国于去年11月成立的新人工智能安全研究所 (AISI) 和尚未开始工作的美国同类机构能够通过借调两国研究人员来交流专业知识。两家机构还将共同研究如何独立评估 OpenAI 和谷歌等公司建立的私人人工智能模型。

封面图片

美国参议院推动人工智能安全法案 旨在防止AI模型出现安全漏洞

美国参议院推动人工智能安全法案 旨在防止AI模型出现安全漏洞 该中心将领导研究法案中所说的"反人工智能",即学习如何操纵人工智能系统的技术。该中心还将制定预防反人工智能措施的指南。该法案还将要求国家标准与技术研究院(NIST)和网络安全与基础设施安全局建立一个人工智能漏洞数据库,包括"近乎得手的漏洞"。华纳和蒂利斯提出的法案重点关注对抗人工智能的技术,并将其分为数据中毒、规避攻击、基于隐私的攻击和滥用攻击。数据中毒指的是在人工智能模型刮取的数据中插入代码,破坏模型输出的方法。它是防止人工智能图像生成器在互联网上复制艺术作品的一种流行方法。规避攻击会改变人工智能模型所研究的数据,以至于模型变得混乱。人工智能安全是拜登政府人工智能行政命令的关键项目之一,该命令指示美国国家标准与技术研究院(NIST)制定"红队"指导方针,并要求人工智能开发人员提交安全报告。所谓"红队"(red teaming),是指开发人员故意让人工智能模型对不应该出现的提示做出反应。理想情况下,人工智能模型的开发者会对平台进行安全测试,并在向公众发布之前对其进行广泛的红队测试。一些公司如微软已经创建了一些工具,帮助人工智能项目更容易地添加安全防护措施。《人工智能安全法案》在提交给更大范围的参议院审议之前,必须经过一个委员会的审议。 ... PC版: 手机版:

封面图片

NIST 推出评估生成式人工智能的新平台

NIST 推出评估生成式人工智能的新平台 NIST 在新推出的 NIST GenAI网站和一份新闻稿中解释说,NISTGenAI将发布基准,帮助创建"内容真实性"检测(即深度验假)系统,并鼓励开发软件来识别人工智能生成的虚假或误导性信息的来源。"NIST GenAI 计划将发布一系列挑战问题,[旨在]评估和衡量生成式人工智能技术的能力和局限性。这些评估将用于确定促进信息完整性的策略,并指导安全、负责任地使用数字内容"。NIST GenAI 的第一个项目是一项试点研究,目的是建立能够可靠区分人类创建的媒体和人工智能生成的媒体的系统,首先从文本开始。(虽然许多服务都声称可以检测深度伪造,但研究和测试表明,它们充其量只能说是不可靠的,尤其是在文本方面)。NIST GenAI 邀请学术界、工业界和研究实验室的团队提交"生成器"(生成内容的人工智能系统)或"鉴别器"(旨在识别人工智能生成内容的系统)。研究中的生成器必须生成 250 字或更少的摘要,提供一个主题和一组文档,而判别器必须检测给定摘要是否可能是人工智能编写的。为确保公平,NIST GenAI 将提供测试生成器所需的数据。NIST 表示:"以公开数据训练的系统如果不"遵守适用的法律法规",将不被接受。试点登记将于 5 月 1 日开始,第一轮两家计划于 8 月 2 日结束。 预计研究的最终结果将于 2025 年 2 月公布。在人工智能生成的错误信息和虚假信息呈指数级增长之际,NIST GenAI 启动了以深度伪造为重点的研究。根据深度假货检测公司Clarity 的数据,与去年同期相比,今年制作和发布的深度假货数量增加了 900%。这引起了人们的恐慌,这是可以理解的。 YouGov 最近的 一项民意调查 发现,85% 的美国人担心误导性的深度假新闻会在网上传播。NIST GenAI 的启动是 NIST 响应乔-拜登总统关于人工智能的行政命令的一部分,拜登总统的行政命令规定,要求人工智能公司在其模型如何工作方面提高透明度,并制定了一系列新标准,包括对人工智能生成的内容进行标注。这也是 NIST 在任命前 OpenAI 研究员保罗-克里斯蒂亚诺(Paul Christiano)为该机构的人工智能安全研究所成员后,首次发布与人工智能相关的消息。克里斯蒂亚诺因其"现实主义"观点而备受争议;他曾预言,"人工智能的发展有50%的可能以[人类毁灭]而告终"。据报道,包括美国国家标准与技术研究院(NIST)科学家在内的批评人士担心,克里斯蒂亚诺可能会鼓励人工智能安全研究所关注"幻想的场景",而不是现实的、更直接的人工智能风险。NIST 表示,NIST GenAI 将为人工智能安全研究所的工作提供参考。 ... PC版: 手机版:

封面图片

英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型 英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人