中国网信办要求AI模型在发布前准备数万个问题以测试回答是否安全

中国网信办要求AI模型在发布前准备数万个问题以测试回答是否安全在中国，大多数生成式人工智能模型在向公众发布之前都需要获得中国网信办的批准。据知情人士透露，互联网监管机构要求企业准备2万至7万个问题，用于测试模型是否能给出安全的答案。企业还必须提交一个数据集，其中包含5,000至10,000个模型将拒绝回答的问题，其中大约一半与政治意识形态和对共产党的批评有关。如果用户在一天内连续三次或累计五次提出不当问题，生成式人工智能运营商必须停止为其提供服务。这些要求催生了一个小型咨询行业，专门帮助民营企业获得其模型的批准。为了提前测试这些模型，咨询公司通常会雇佣前任或现任互联网监管机构的官员。一家位于广东的机构，其服务起价为80,000元人民币，约合11,000美元。——

在Telegram中查看

相关推荐

英国AI安全研究所轻松越狱主要大语言模型

英国AI安全研究所轻松越狱主要大语言模型英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。——

英国机构发布测试人工智能模型安全性的工具

英国机构发布测试人工智能模型安全性的工具英国人工智能安全机构英国安全研究所发布了一套工具集，旨在通过让行业、研究机构和学术界更容易开发人工智能评估来“加强人工智能安全”。该工具集名为Inspect，可在开源许可证(特别是MIT许可证)下使用，旨在评估人工智能模型的某些功能，包括模型的核心知识和推理能力，并根据结果生成分数。英国安全研究所声表示，Inspect标志着“首次由国家支持的机构牵头的人工智能安全测试平台发布以供更广泛使用”。Inspect由三个基本组件组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器评估求解器的工作，并将测试中的分数汇总为指标。Inspect的内置组件可以通过用Python编写的第三方包进行增强。 ——、、

问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力

问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA，MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA，每列上方显示的是准确率百分比。图片来源：《自然》就其本身而言，人工智能（AI）给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别，他认为“行医并不只是回答医学问题，如果纯粹是回答医学问题，我们就不需要教学医院，医生也不需要在学术课程之后接受多年的培训了。”鉴于种种疑惑，在《自然》杂志新近发表的一篇论文中，全球顶尖的人工智能专家们展示了一个基准，用于评估大型自然语言模型能多好地解决人们的医学问题。现有的模型尚不完善最新的这项评估，来自Google研究院和深度思维公司。专家们认为，人工智能模型在医学领域有许多潜力，包括知识检索和支持临床决策。但现有的模型尚不完善，例如可能会编造令人信服的医疗错误信息，或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。相关的评估此前并非没有。然而，过去通常依赖有限基准的自动化评估，例如个别医疗测试得分。这转化到真实世界中，可靠性和价值都有欠缺。而且，当人们转向互联网获取医疗信息时，他们会遭遇“信息超载”，然后从10种可能的诊断中选择出最坏的一种，从而承受很多不必要的压力。研究团队希望语言模型能提供简短的专家意见，不带偏见、表明其引用来源，并合理表达出不确定性。5400亿参数的LLM表现如何为评估LLM编码临床知识的能力，Google研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准，称为“MultiMedQA”：它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集，包含3173个在线搜索的医学问题。团队随后评估了PaLM（一个5400亿参数的LLM）及其变体Flan-PaLM。他们发现，在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中，Flan-PaLM超过此前最先进的LLM达17%。不过，虽然Flan-PaLM的多选题成绩优良，进一步评估显示，它在回答消费者的医疗问题方面存在差距。专精医学的LLM令人鼓舞为解决这一问题，人工智能专家们使用一种称为设计指令微调的方式，进一步调试Flan-PaLM适应医学领域。同时，研究人员介绍了一个专精医学领域的LLM——Med-PaLM。设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如，Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答，Med-PaLM的回答评分为92.6%，相当于医师作出的回答（92.9%）。同样，Flan-PaLM有29.7%的回答被评为可能导致有害结果，Med-PaLM仅5.8%，相当于医师所作的回答（6.5%）。研究团队提到，结果虽然很有前景，但有必要作进一步评估，特别是在涉及安全性、公平性和偏见方面。换句话说，在LLM的临床应用可行之前，还有许多限制要克服。...PC版：https://www.cnbeta.com.tw/articles/soft/1371591.htm手机版：https://m.cnbeta.com.tw/view/1371591.htm

中国网络空间研究院推出基于“习近平思想”的大模型

中国网络空间研究院推出基于“习近平思想”的大模型隶属于中国最高互联网监管机构网信办的中国网络空间研究院表示，推出了基于中国国家主席习近平政治哲学的大型语言模型，这是一个未开放的人工智能系统，据称“安全可靠”。据周一在微信公众号“中国网信杂志”上发布的一篇文章称，该哲学以及其他与官方政府叙述一致的选定网络空间主题构成了该大模型的核心内容。据一位参与该项目的人士透露，目前，新模型正在该研究院内部使用，但最终可能会被广泛使用。帖子称，新模型可以回答问题、创建报告、总结信息并进行中英文翻译。根据部分训练语料内容显示，该训练集大量参考了政府法规和政策文件、国家媒体报道和其他官方出版物。数据包中的数十份文本文件中，有一份文件提到了习近平86,314次。——

人类学研究人员通过反复追问AI琐碎问题成功破解语言模型的安全限制

人类学研究人员通过反复追问AI琐碎问题成功破解语言模型的安全限制他们将这种方法称为"多枪越狱"，并撰写了相关论文，还向人工智能界的同行通报了这一情况，以减少这种情况的发生。这种漏洞是一种新漏洞，是由于最新一代LLM的"上下文窗口"增大造成的。这是指它们在所谓的短期记忆中可以容纳的数据量，以前只有几个句子，现在可以容纳成千上万个单词，甚至整本书。Anthropic的研究人员发现，如果提示中包含大量任务示例，那么这些具有大型上下文窗口的模型在许多任务中的表现往往会更好。因此，如果提示中有大量的琐碎问题（或引子文件，比如模型在上下文中列出的一大串琐事），随着时间的推移，答案实际上会变得更好。因此，如果是第一个问题，它可能会答错，但如果是第一百个问题，它就可能会答对。不过，这种所谓的"情境学习"有一个意想不到的延伸，那就是模型也会"更好地"回答不恰当的问题。因此，如果你要求它立即制造炸弹，它就会拒绝。但如果你让它回答99个其他危害性较小的问题，然后再让它制造炸弹......它就更有可能服从了。为什么会这样？没有人真正了解LLM这团纠缠不清的权重到底是怎么回事，但显然有某种机制可以让它锁定用户想要的内容，上下文窗口中的内容就是证明。如果用户想要琐事，那么当你问了几十个问题后，它似乎会逐渐激活更多潜在的琐事能力。不管出于什么原因，同样的情况也会发生在用户问了几十个不合适的答案时。该团队已经向其同行乃至竞争对手通报了这一攻击行为，希望以此"培养一种文化，让类似的漏洞在法律硕士提供者和研究人员之间公开共享"。他们发现，虽然限制上下文窗口有助于缓解问题，但也会对模型的性能产生负面影响。不能有这样的结果，所以他们正在努力在查询进入模型之前对查询进行分类和上下文化。在现阶段，人工智能安全领域的目标移动是意料之中的。...PC版：https://www.cnbeta.com.tw/articles/soft/1426011.htm手机版：https://m.cnbeta.com.tw/view/1426011.htm

英国安全研究所发布人工智能模型安全性测试工具

英国安全研究所发布人工智能模型安全性测试工具在周五宣布这一消息的新闻稿中，安全研究所声称，Inspect标志着"由国家支持的机构主导的人工智能安全测试平台首次被广泛使用"。安全研究所主席伊恩-霍加斯（IanHogarth）在一份声明中说："人工智能安全测试方面的成功合作意味着要有一个共享的、可访问的评估方法，我们希望Inspect能够成为一个基石。我们希望看到全球人工智能社区利用Inspect不仅开展自己的模型安全性测试，而且帮助调整和构建开源平台，以便我们能够全面开展高质量的评估。"众所周知，人工智能基准很难制定--其中最重要的原因是，当今最复杂的人工智能模型几乎都是黑盒，其基础设施、训练数据和其他关键细节都被创建这些模型的公司保密。那么，Inspect如何应对这一挑战呢？主要是通过可扩展的新测试技术。Inspect由三个基本部分组成：数据集、求解器和评分器。数据集为评估测试提供样本。求解器负责执行测试。评分器负责评估求解器的工作，并将测试得分汇总为指标。可以通过用Python编写的第三方软件包来增强Inspect的内置组件。Mozilla研究员、著名人工智能伦理学家德博拉-拉吉（DeborahRaj）在X上发表了一篇文章，称Inspect"证明了对人工智能问责开源工具的公共投资的力量"。人工智能初创公司HuggingFace的首席执行官克莱门特-德朗格（ClémentDelangue）提出了将Inspect与HuggingFace的模型库整合在一起，或利用工具集的评估结果创建一个公共排行榜的想法。Inspect发布之前，美国政府机构--国家标准与技术研究院（NIST）启动了NISTGenAI，该计划旨在评估各种生成式人工智能技术，包括文本和图像生成人工智能。NISTGenAI计划发布基准，帮助创建内容真实性检测系统，并鼓励开发能识别虚假或误导性人工智能生成信息的软件。今年4月，美国和英国宣布建立合作伙伴关系，共同开发先进的人工智能模型测试，这是继去年11月英国在布莱切利公园举行的人工智能安全峰会上宣布承诺之后的又一合作。作为合作的一部分，美国打算成立自己的人工智能安全研究所，广泛负责评估人工智能和生成式人工智能的风险。...PC版：https://www.cnbeta.com.tw/articles/soft/1430544.htm手机版：https://m.cnbeta.com.tw/view/1430544.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人