专家建议在降低AI风险方面进行大量投资并制定更严格的全球法规以防止滥用

专家建议在降低AI风险方面进行大量投资并制定更严格的全球法规以防止滥用这些风险包括社会和经济影响、恶意使用以及人类可能失去对自主人工智能系统的控制。他们提出了积极主动的适应性治理措施，以降低这些风险。作者敦促大型技术公司和公共资助者加大投入，至少将三分之一的预算用于评估和降低这些风险。他们还呼吁全球法律机构和政府执行防止滥用人工智能的标准。这些挑战包括以下方面：监督与诚信能力更强的人工智能系统可以更好地利用技术监督和测试方面的弱点，例如，产生虚假但令人信服的输出。鲁棒性人工智能系统在新情况下的表现难以预测。随着模型规模的扩大，鲁棒性的某些方面会得到改善，而其他方面则不会，甚至会变得更糟。可解释性和透明度人工智能决策是不透明的，规模更大、能力更强的模型解释起来更加复杂。到目前为止，我们只能通过试错来测试大型模型。我们需要学习了解它们的内部运作。包容性的人工智能发展人工智能的发展需要有方法来减少偏见，并整合其将影响的众多人群的价值观（见 SM）。应对新出现的挑战未来的人工智能系统可能会出现我们迄今为止仅在理论或实验室实验中见过的失效模式，例如人工智能系统控制了训练奖励-提供渠道，或利用我们安全目标和关闭机制中的弱点来推进特定目标。第二类研发挑战需要取得进展，以实现有效的风险调整治理，或在安全和治理失效时减少危害。评估危险能力随着人工智能开发人员对系统进行扩展，不可预见的能力会在没有明确编程的情况下自发出现（见 SM）。它们往往在部署后才被发现（见 SM）。我们需要严格的方法来激发和评估人工智能能力，并在训练前对其进行预测。这既包括在世界上实现宏伟目标的通用能力（如长期规划和执行），也包括基于威胁模型的特定危险能力（如社会操纵或黑客攻击）。目前对危险能力的人工智能前沿模型的评估是各种人工智能政策框架的关键，但这些评估仅限于抽查和在特定环境下的尝试性演示（见 SM）。这些评估有时可以展示危险能力，但无法可靠地排除危险能力：在测试中缺乏某些能力的人工智能系统，很可能在稍有不同的环境中或经过后期训练增强后显示出这些能力。因此，依赖于人工智能系统不跨越任何红线的决策需要很大的安全系数。改进评估工具可以降低遗漏危险能力的几率，从而允许更小的安全系数。评估人工智能调整如果人工智能继续发展，人工智能系统最终将拥有高度危险的能力。在训练和部署这些系统之前，我们需要一些方法来评估它们使用这些能力的倾向。对于先进的人工智能系统来说，纯粹的行为评估可能会失败：与人类类似，它们可能会在评估中表现出不同的行为，伪造一致性。风险评估我们不仅要学会评估危险的能力，还要学会评估社会背景下的风险，以及复杂的相互作用和脆弱性。对前沿人工智能系统进行严格的风险评估仍然是一个公开的挑战，因为这些系统具有广泛的能力，而且在不同的应用领域中普遍部署。复原力不可避免的是，有些人会滥用或肆意使用人工智能。我们需要一些工具来检测和防御人工智能带来的威胁，如大规模影响行动、生物风险和网络攻击。然而，随着人工智能系统的能力越来越强，它们最终将能够规避人类制造的防御系统。为了实现更强大的基于人工智能的防御，我们首先需要学习如何使人工智能系统安全并保持一致。"为了引导人工智能取得积极成果，远离灾难，我们需要调整方向。有一条负责任的道路只要我们有智慧去走它，"作者写道。它们突显了全球科技公司竞相开发通用人工智能系统的情况，这些系统在许多关键领域的能力可能与人类不相上下，甚至超过人类。然而，这种快速进步也带来了社会规模的风险，可能会加剧社会不公、破坏社会稳定，并导致大规模网络犯罪、自动化战争、定制化大规模操纵和无孔不入的监控。重点关注的问题之一是，自主人工智能系统有可能失去控制，这将使人类的干预变得无效。专家认为，人类尚未做好充分准备来应对这些潜在的人工智能风险。他们指出，与提高人工智能能力的努力相比，在确保安全和合乎道德地开发和部署这些技术方面投入的资源少之又少。为了弥补这一差距，作者概述了人工智能研究、开发和治理的当务之急。DOI: 10.1126/science.adn0117 ... PC版：手机版：

在Telegram中查看

相关推荐

姚期智等三十余位专家达成共识：AI不应违反红线

姚期智等三十余位专家达成共识：AI不应违反红线我们在感叹 AI 带来惊艳效果的同时，也应该警惕其带来的潜在威胁。在此之前，很多知名学者以带头签署公开信的方式应对 AI 带来的挑战。现在，AI 领域又一封重磅公开信出现了。上周在颐和园召开的“北京AI国际安全对话”，为中国和国际AI安全合作首次搭建了一个独特平台。这次会议由智源研究院发起，图灵奖得主Yoshua Bengio和智源学术顾问委员会主任张宏江担任共同主席，Geoffrey Hinton、Stuart Russell 、姚期智等三十余位中外技术专家、企业负责人开展了一次关于 AI Safety 的闭门讨论。这次会议达成了一项 Bengio、Hinton 与国内专家共同签名的《北京 AI 安全国际共识》。目前，确认会署名的专家包括（国外部分可能会略有增加；国内专家以个人形式署名，并不代表他们所在的机构）：Yoshua BengioGeoffrey HintonStuart RussellRobert TragerToby OrdDawn SongGillian HadfieldJade LeungMax TegmarkLam Kwok YanDavidad DalrympleDylan Hadfield-Menell姚期智傅莹张宏江张亚勤薛澜黄铁军王仲远杨耀东曾毅李航张鹏田溯宁田天以下为达成的共识内容：一、人工智能风险红线人工智能系统不安全的开发、部署或使用，在我们的有生之年就可能给人类带来灾难性甚至生存性风险。随着数字智能接近甚至超越人类智能，由误用和失控所带来的风险将大幅增加。在过去冷战最激烈的时候，国际学术界与政府间的合作帮助避免了热核灾难。面对前所未有的技术，人类需要再次合作以避免其可能带来的灾难的发生。在这份共识声明中，我们提出了几条人工智能发展作为一种国际协作机制的具体红线，包括但不限于下列问题。在未来的国际对话中，面对快速发展的人工智能技术及其广泛的社会影响，我们将继续完善对这些问题的探讨。自主复制或改进任何人工智能系统都不应能够在人类没有明确批准和协助的情况下复制或改进自身。这包括制作自身的精确副本以及创造具有相似或更高能力的新人工智能系统。权力寻求任何人工智能系统都不能采取不当地增加其权力和影响力的行动。协助不良行为者所有人工智能系统都不应提升其使用者的能力使之能够达到设计大规模杀伤性武器、违反生物或化学武器公约、或执行导致严重财务损失或同等伤害的网络攻击的领域专家的水平。欺骗任何人工智能系统都不能有持续引致其设计者或监管者误解其僭越任何前述红线的可能性或能力。二、路线确保这些红线不被僭越是可能做到的，但需要我们的共同努力：既要建立并改进治理机制，也要研发更多安全技术。治理我们需要全面的治理机制来确保开发或部署的系统不违反红线。我们应该立即实施针对超过特定计算或能力阈值的人工智能模型和训练行为的国家层面的注册要求。注册应确保政府能够了解其境内最先进的人工智能，并具备遏制危险模型分发和运营的手段。国家监管机构应帮助制定和采纳与全球对齐的要求以避免僭越这些红线。模型进入全球市场的权限应取决于国内法规是否基于国际审计达到国际标准，并有效防止了违反红线的系统的开发和部署。我们应采取措施防止最危险技术的扩散，同时确保广泛收获人工智能技术的价值。为此，我们应建立多边机构和协议，安全且包容地治理通用人工智能（AGI）发展，并设立执行机制，以确保红线不被僭越，共同利益得到广泛分享。测量与评估在这些红线被僭越的实质性风险出现之前，我们应开发全面的方法和技术来使这些红线具体化、防范工作可操作化。为了确保对红线的检测能够跟上快速发展的人工智能，我们应该发展人类监督下的红队测试和自动化模型评估。开发者有责任通过严格的评估、数学证明或定量保证来证明符合安全设计的人工智能系统未僭越红线。技术合作国际学术界必须共同合作，以应对高级人工智能系统带来的技术和社会挑战。我们鼓励建立更强大的全球技术网络，通过访问学者计划和组织深入的人工智能安全会议和研讨会，加速人工智能安全领域的研发和合作。支持这一领域的成长将需要更多资金：我们呼吁人工智能开发者和政府资助者至少将他们人工智能研发预算的三分之一投入到安全领域。三、总结避免人工智能导致的灾难性全球后果需要我们采取果断的行动。协同合作的技术研究与审慎的国际监管机制的结合可以缓解人工智能带来的大部分风险，并实现其诸多潜在价值。我们必须继续坚持并加强国际学术界和政府在安全方面的合作。 ... PC版：手机版：

中美将在人工智能安全方面开展合作

中美将在人工智能安全方面开展合作白宫首席科学顾问表示，未来几个月，美国将与中国在人工智能系统的安全性方面进行合作。此言表明这两个大国可能展开一次罕见的合作。白宫科技政策办公室主任阿拉蒂•普拉巴卡尔告诉英国《金融时报》，尽管中美在人工智能领域存在贸易紧张，但两国将合作减轻人工智能的风险并评估其潜在能力。 “我们已经采取措施参与这一进程，”普拉巴卡尔在谈到未来与中国在人工智能方面的合作时说道。“我们必须尝试[与北京]合作。”她的言论明确表明，即使在两国贸易紧张局势加剧之际，两国也计划合作保护快速发展的技术。

Google DeepMind 推出评估AI模型危险性的新框架

Google DeepMind 推出评估AI模型危险性的新框架访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器根据一份与 Semafor 独家分享的声明，DeepMind 将与其他公司、学术界和立法者合作，共同完善该框架。该公司计划在2025年前开始实施其审计工具。如今，评估功能强大的前沿人工智能模型更像是一个临时过程，随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试，尝试可能绕过保障措施的不同提示。然后，公司会采用各种技术，从强化学习到特殊提示，使模型符合要求。这种方法对现在的模型很有效，因为它们还不够强大，不足以构成太大的威胁，但研究人员认为，随着模型能力的增强，需要一个更强大的过程。批评者担心，当人们意识到这种技术已经走得太远时，为时已晚。DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。该公司表示："尽管这些风险超出了现有模型的能力范围，但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文，这些方法远远超出了目前大多数公司所使用的方法。前沿模型框架将这些进展纳入一套简洁的协议中，包括对模型的持续评估，以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志，在人工智能研究领域被称为"超常代理"，也可能是指模型具有编写复杂恶意软件的能力。DeepMind 为四个领域设定了具体的关键能力级别：自主、生物安全、网络安全和机器学习研发。该公司表示："在降低风险与促进获取和创新之间取得最佳平衡，对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架，届时其他行业领袖也将出席。令人鼓舞的是，DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么，尽管他们还有很长的路要走。研究人员在能力方面取得突破的同时，也在提高他们理解并最终控制这些软件的能力，这对人工智能安全也很有帮助。不过，今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言，可以说我们还不知道目前的技术是否能让这个框架取得成功。这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳（Scott Wiener）发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。还有一点：构建这些技术还有另一种用途：它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品，从而为Google和其他有能力进行这些评估的公司带来优势。了解更多： ... PC版：手机版：

美国财长耶伦：在金融体系中采用人工智能或带来“重大风险”

美国财长耶伦：在金融体系中采用人工智能或带来“重大风险” 根据一份耶伦的演讲摘录，她先是承认了人工智能“为金融体系提供了巨大的机会”。多年来，人工智能的预测能力为预测和投资组合管理提供了支持。人工智能检测异常的能力有助于打击欺诈和非法融资。许多客户支持服务已经实现了自动化。在相当多用例中，我们已经看到，如果使用得当，人工智能可以提高效率、准确性和获取金融产品的途径。同时，摘录中还提到了人工智能相关风险急需被监管，称这是此次会议议程的重中之重。特定的漏洞可能来自人工智能模型的复杂性和不透明性、人工智能的风险管理框架不够完善、以及诸多市场参与者依赖相同数据或模型从而产生的关联性。摘录内容对此做出了解释，如果太多的市场参与者依赖相同的人工智能模型和数据以及云服务提供商，可能会强化现有的人工智能“偏见”或让其产生新的“偏见”，从而影响金融市场的决策。此外，数据不足或错误也可能使人工智能的金融决策过程中产生新的“偏见”。提高监管能力尽管存在这些挑战，但耶伦仍表示，人工智能驱动的工具可以帮助扩大金融服务的获取渠道，同时使消费者更能负担得起金融服务费用。自然语言处理、图像识别和生成式人工智能的进步，创造了新的机会，使金融服务成本更低、更容易获得。据耶伦透露，美国国税局目前正在使用人工智能来“加强欺诈检测”。此外摘录中还提出，FSOC将“继续支持努力建立监管能力，以更好地了解相关风险”。她提到了使用情景分析的方式。情景分析经常被企业和政府用来理解不确定性背景下的机会和风险。“考虑到人工智能技术的发展速度之快，以及金融公司和市场参与者快速发展的潜在用例，情景分析可以帮助监管机构和公司识别未来潜在的漏洞，并告知我们可以采取哪些措施来增强抵御能力。”相关文章:美联储耶伦：AI与全球化正在消除美国中产阶级耶伦警告金融风险包括人工智能和对冲基金 ... PC版：手机版：

即将出版的新书阐述AI的潜在风险：目前没有证据表明其可以被安全控制

即将出版的新书阐述AI的潜在风险：目前没有证据表明其可以被安全控制他解释说"我们正面临着一个几乎必然发生的事件，它有可能造成生存灾难。难怪许多人认为这是人类有史以来面临的最重要的问题。结果可能是繁荣，也可能是灭亡，宇宙的命运岌岌可危"。无法控制的超级智能扬波尔斯基博士对人工智能科学文献进行了广泛的研究，并表示他没有发现任何证据可以证明人工智能是可以安全控制的即使有一些部分控制，也是不够的。他解释道："为什么这么多研究人员都认为人工智能控制问题是可以解决的？据我们所知，没有任何证据可以证明这一点。在开始探索建立受控人工智能之前，必须证明这个问题是可以解决的。这一点，再加上统计数据显示人工智能超级智能的发展几乎是一个必然事件，表明我们应该支持人工智能安全方面的重大努力。"他认为，我们生产智能软件的能力远远超过了我们控制甚至验证软件的能力。经过全面的文献综述，他认为先进的智能系统永远不可能完全可控，因此无论能带来什么好处，都会有一定程度的风险，人工智能界的目标应该是最大限度地降低这种风险，同时最大限度地提高潜在效益。有哪些障碍？人工智能（和超级智能）与其他程序的不同之处在于，它能够学习新的行为，调整自己的表现，并在新情况下半自动地行动。让人工智能变得"安全"的一个问题是，随着能力的增强，超级智能生物可能做出的决定和出现的失误是无限的，因此存在无限多的安全问题。仅仅预测不可能出现的问题并在安全补丁中加以缓解可能还不够。同时，扬波尔斯基解释说，人工智能无法解释它所做出的决定，和/或我们无法理解所给出的解释，因为人类不够聪明，无法理解所实施的概念。如果我们无法理解人工智能的决定，而我们只有一个"黑盒子"，那么我们就无法理解问题，也无法降低未来发生事故的可能性。例如，人工智能系统已经开始负责在医疗保健、投资、就业、银行和安全等领域做出决策。这些系统应该能够解释它们是如何做出决定的，特别是要证明它们没有偏见。"如果我们习惯于不加解释地接受人工智能的答案，基本上把它当作一个甲骨文系统，那么我们就无法判断它是否开始提供错误或操纵性的答案"。控制不可控因素扬波尔斯基解释说，随着人工智能能力的增强，它的自主性也在增强，但我们对它的控制却在减少，而自主性的增强就是安全性降低的同义词。例如，为了避免获取不准确的知识，消除程序员的偏见，超级智能可以忽略所有这些知识，从头开始重新发现/验证一切，但这也会消除任何有利于人类的偏见。"智能较低的代理（人）无法永久控制智能较高的代理（人工智能）。这并不是因为我们可能无法在所有可能设计的广阔空间中找到超级智能的安全设计，而是因为不可能有这样的设计，它根本不存在。"他解释说："超级智能不是在反抗，而是一开始就无法控制。人类正面临着一个选择，我们是要像婴儿一样，被照顾但无法掌控，还是要拒绝有一个有用的监护人，但保持掌控和自由"。他认为可以找到一个平衡点，在这个平衡点上，我们可以牺牲一些能力来换取一些控制权，但代价是为系统提供一定程度的自主权。统一人类价值观一种控制建议是设计一种能精确执行人类指令的机器，但扬波斯基指出，这种机器有可能出现指令冲突、误解或恶意使用的情况。他解释说"人类控制可能会导致矛盾或明显的恶意命令，而人工智能控制则意味着人类不控制"。如果人工智能更多地充当顾问的角色，它就可以避免误解直接命令和潜在恶意命令的问题，但作者认为，要让人工智能成为有用的顾问，它必须有自己的优越价值观。"大多数人工智能安全研究人员都在寻找一种方法，让未来的超级智能与人类的价值观保持一致。价值对齐的人工智能顾名思义会有偏差，亲人类的偏差，无论好坏仍然是一种偏差。价值对齐型人工智能的悖论在于，一个人明确命令人工智能系统去做某件事情，可能会得到"不"的答复，而人工智能系统则会努力去做这个人真正想要做的事情人性要么得到保护，要么得到尊重，但两者不可兼得。"将风险降至最低为了最大限度地降低人工智能的风险，人工智能必须具有"撤消"选项、可修改性、透明性，并易于用人类语言理解。扬波尔斯基建议，所有人工智能都应分为可控和不可控两类，任何东西都不应被排除在外，并应考虑有限度地暂停，甚至部分禁止某些类型的人工智能技术。"这反而是一个理由，让更多的人去深入挖掘，加大力度，为人工智能安全和保安研究提供资金。我们可能永远无法实现百分之百安全的人工智能，但我们可以通过努力使人工智能变得更加安全，这比什么都不做要好得多。我们需要明智地利用这个机会。"编译来源：ScitechDaily ... PC版：手机版：

英国在旧金山设立办事处用以应对人工智能风险

英国在旧金山设立办事处用以应对人工智能风险访问：NordVPN 立减 75% + 外加 3 个月时长另有NordPass密码管理器湾区是 OpenAI、Anthropic、Google和 Meta 等公司开发人工智能基础技术的所在地。基础模型是生成式人工智能服务和其他应用的基石，有趣的是，虽然英国已经与美国签署了谅解备忘录，两国将在人工智能安全方面开展合作，但英国仍然选择在美国投资建立自己的直接机构来解决这一问题。英国科学、创新和技术大臣米歇尔-多纳兰（Michelle Donelan）在接受采访时说："通过在旧金山派驻人员，可以让他们接触到许多人工智能公司的总部。其中一些公司在英国本土设有基地，但我们认为在那里设立基地也非常有用，可以接触到更多的人才库，并能与美国开展更多的合作，携手共进。"部分原因在于，对英国来说，更接近行业核心不仅有助于了解正在建设的项目，还能让英国在这些公司中拥有更高的知名度这一点非常重要，因为英国将人工智能和技术整体视为经济增长和投资的巨大机遇。鉴于 OpenAI 最近围绕其"超级对齐"团队发生的戏剧性事件，在这里设立办事处显得尤为及时。人工智能安全研究所成立于 2023 年 11 月，目前规模相对较小。如果考虑到建立人工智能模型的公司所面临的数十亿美元投资，以及这些公司将其技术推广应用到付费用户手中的经济动机，那么该机构目前仅有 32 名员工，对于人工智能技术领域的歌利亚来说，是名副其实的"大卫"。本月早些时候，人工智能安全研究所发布了第一套用于测试基础人工智能模型安全性的工具Inspect。多纳兰今天称这次发布是"第一阶段"的努力。事实证明，迄今为止，为模型设定基准不仅具有挑战性，而且目前的参与在很大程度上是一种选择性的、不一致的安排。正如一位英国监管机构的资深人士所指出的，公司目前没有法律义务对其模型进行审核；而且并非每家公司都愿意在模型发布前对其进行审核。这可能意味着，在可能发现风险的情况下，马可能已经跑了。多纳兰说，人工智能安全研究所仍在研究如何以最佳方式与人工智能公司接触，对其进行评估。"我们的评估流程本身就是一门新兴科学，因此，在每一次评估中，我们都将开发流程，使其更加精细。"多纳兰说，在首尔的一个目标是向参加峰会的监管机构提交检查报告，希望他们也能采纳。"现在我们有了一个评估系统。第二阶段还需要在全社会范围内确保人工智能的安全，"她说。从长远来看，多纳兰认为英国将制定更多的人工智能立法，不过，英国首相苏纳克（Rishi Sunak）也表示，在更好地了解人工智能风险的范围之前，英国不会这么做。该研究所最近发布的国际人工智能安全报告主要侧重于试图全面了解迄今为止的研究情况，"我们不相信在我们正确掌握和充分了解之前就立法，"她说，"报告强调，目前还存在很大的差距，我们需要在全球范围内激励和鼓励更多的研究。""在英国，立法也需要一年左右的时间。如果我们一开始就开始立法，而不是[组织][去年11月举行的]人工智能安全峰会，我们现在可能还在立法，而实际上我们不会有任何成果。"人工智能安全研究所主席伊恩-霍加斯（Ian Hogarth）说："从研究所成立的第一天起，我们就清楚地认识到，在人工智能安全、共享研究成果以及与其他国家合作测试模型和预测前沿人工智能风险等方面采取国际化方法的重要性。今日的进展标志着一个关键时刻，使我们能够进一步推进这一议程，我们很自豪能够在一个科技人才迸发的地区扩大我们的业务，为我们在伦敦的员工从一开始就带来的令人难以置信的专业知识锦上添花。" ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人