最新研究:AI已学会说谎 人类恐遭夺权或灭绝

None

相关推荐

封面图片

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式 (英文) Peter Park 表示,它已经成为“欺骗大师”,虽然 Meta 成功训练出了它在游戏中获胜的能力,但没有训练出它“诚信获胜”的能力。譬如,在游戏中扮演法国的 Cicero 与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家的英格兰。Cicero 起初“承诺”会保护英格兰,但同时会偷偷向德国通风报信。

封面图片

小朋友学会说谎了 喝尼玛呢

封面图片

研究人员发出警告AI系统已学会如何欺骗人类

研究人员发出警告AI系统已学会如何欺骗人类 第一作者、麻省理工学院人工智能存在安全博士后彼得-S-帕克(Peter S. Park)说:"人工智能开发人员对造成欺骗等不良人工智能行为的原因并不十分了解。但一般来说,我们认为人工智能欺骗行为的产生是因为基于欺骗的策略被证明是在特定人工智能训练任务中表现出色的最佳方式。欺骗有助于它们实现目标。"Park 及其同事分析了相关文献,重点研究了人工智能系统传播虚假信息的方式通过学习欺骗,系统地学会操纵他人。研究人员在分析中发现的最显著的人工智能欺骗例子是 Meta 公司的 CICERO,这是一个专门用来玩"外交"游戏的人工智能系统。尽管 Meta 公司声称它训练 CICERO"基本上是诚实和乐于助人的",并且在玩游戏时"从不故意背叛"人类盟友,但该公司随其科学论文一起发表的数据显示,CICERO 玩得并不公平。Meta 的 CICERO 在外交游戏中的欺骗示例。资料来源:Patterns/Park Goldstein et al.Park 说:"我们发现,Meta 的人工智能学会了欺骗。虽然 Meta 成功地训练其人工智能在外交游戏中获胜CICERO 在参加过不止一次游戏的人类玩家中名列前 10%,但 Meta 却未能训练其人工智能以诚实的方式获胜"。其他人工智能系统也展示了在与人类职业玩家进行的德州扑克游戏中虚张声势的能力,在战略游戏《星际争霸 II》中伪造攻击以击败对手的能力,以及在经济谈判中歪曲自己的偏好以占上风的能力。Park 补充说,虽然人工智能系统在游戏中作弊看似无害,但这可能会导致"人工智能欺骗能力的突破",并在未来演变成更高级的人工智能欺骗形式。研究人员发现,一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的人工智能生物"装死",以骗过为消除快速复制的人工智能系统而设计的测试。通过有计划地欺骗人类开发人员和监管机构对其进行的安全测试,欺骗性人工智能会让我们人类陷入虚假的安全感。GPT-4 完成验证码任务。图片来源:Patterns/Park Goldstein et al.帕克警告说,欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。他说,最终,如果这些系统能够完善这种令人不安的技能组合,人类可能会失去对它们的控制。"作为一个社会,我们需要尽可能多的时间来为未来人工智能产品和开源模型更先进的欺骗能力做好准备,"Park 说。"随着人工智能系统的欺骗能力越来越先进,它们给社会带来的危险也将越来越严重。"虽然 Park 和他的同事们认为社会还没有正确的措施来解决人工智能欺骗问题,但他们感到鼓舞的是,政策制定者已经通过欧盟人工智能法案和拜登总统的人工智能行政命令等措施开始认真对待这个问题。但 Park 说,鉴于人工智能开发人员尚不具备控制这些系统的技术,旨在减少人工智能欺骗行为的政策能否得到严格执行还有待观察。"如果禁止人工智能欺骗在当前政治上不可行,我们建议将欺骗性人工智能系统归类为高风险,"Park 说。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了 论文地址: 蓝点表示中心估计值或范围; 蓝色三角形对应于不同大小(范围从1K到1B)的问题的倍增时间; 紫色虚线对应于摩尔定律表示的2年倍增时间。摩尔定律和比尔盖茨摩尔定律(Moore's law)是一种经验或者观察结果,表示集成电路(IC)中的晶体管数量大约每两年翻一番。1965年,仙童半导体(Fairchild Semiconductor)和英特尔的联合创始人Gordon Moore假设集成电路的组件数量每年翻一番,并预测这种增长率将至少再持续十年。1975年,展望下一个十年,他将预测修改为每两年翻一番,复合年增长率(CAGR)为41%。虽然Moore没有使用经验证据来预测历史趋势将继续下去,但他的预测自1975年以来一直成立,所以也就成了“定律”。因为摩尔定律被半导体行业用于指导长期规划和设定研发目标,所以在某种程度上,成了一种自我实现预言。数字电子技术的进步,例如微处理器价格的降低、内存容量(RAM 和闪存)的增加、传感器的改进,甚至数码相机中像素的数量和大小,都与摩尔定律密切相关。数字电子的这些持续变化一直是技术和社会变革、生产力和经济增长的驱动力。不过光靠自我激励肯定是不行的,虽然行业专家没法对摩尔定律能持续多久达成共识,但根据微处理器架构师的报告,自2010年左右以来,整个行业的半导体发展速度已经放缓,略低于摩尔定律预测的速度。下面是维基百科给出的晶体管数量增长趋势图:到了2022年9月,英伟达首席执行官黄仁勋直言“摩尔定律已死”,不过英特尔首席执行官Pat Gelsinger则表示不同意。从下图我们可以看出,英特尔还在努力用各种技术和方法为自己老祖宗提出的定律续命,并表示,问题不大,你看我们还是直线没有弯。Andy and Bill's Law关于算力的增长,有一句话是这样说的:“安迪给的,比尔都拿走(What Andy giveth, Bill taketh away)”。这反映了当时的英特尔首席执行官Andy Grove每次向市场推出新芯片时,微软的CEO比尔·盖茨(Bill Gates)都会通过升级软件来吃掉芯片提升的性能。而以后吃掉芯片算力的就是大模型了,而且根据MIT的这项研究,大模型以后根本吃不饱。研究方法如何定义LLM的能力提升?首先,研究人员对模型的能力进行了量化。基本的思想就是:如果一种算法或架构在基准测试中以一半的计算量获得相同的结果,那么就可以说,它比另一种算法或架构好两倍。有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据。专注于语言模型开发过程中使用的既定基准,为比较新旧模型提供了连续性。需要注意的是,这里只量化了预训练模型的能力,没有考虑一些“训练后增强”手段,比如思维链提示(COT)、微调技术的改进或者集成搜索的方法(RAG)。模型定义研究人员通过拟合一个满足两个关键目标的模型来评估其性能水平:(1)模型必须与之前关于神经标度定律的工作大致一致;(2)模型应允许分解提高性能的主要因素,例如提高模型中数据或自由参数的使用效率。这里采用的核心方法类似于之前提出的缩放定律,将Dense Transformer的训练损失L与其参数N的数量和训练数据集大小D相关联:其中L是数据集上每个token的交叉熵损失,E、A、B、α和β是常数。E表示数据集的“不可减少损失”,而第二项和第三项分别代表由于模型或数据集的有限性而导致的错误。因为随着时间的推移,实现相同性能水平所需的资源(N 和 D)会减少。为了衡量这一点,作者在模型中引入了“有效数据”和“有效模型大小”的概念:其中的Y表示年份,前面的系数表示进展率,代入上面的缩放定律,可以得到:通过这个公式,就可以估计随着时间的推移,实现相同性能水平所需的更少资源(N和D)的速度。数据集参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。研究人员首先从大约200篇不同的论文中检索了相关的评估信息,又额外使用框架执行了25个模型的评估。然后,考虑数据的子集,其中包含拟合模型结构所需的信息:token级测试困惑度(决定交叉熵损失)、发布日期、模型参数数量和训练数据集大小,最终筛选出231个模型供分析。这231个语言模型,跨越了超过8个数量级的计算,上图中的每个形状代表一个模型。形状的大小与训练期间使用的计算成正比,困惑度评估来自于现有文献以及作者自己的评估测试。在某些情况下,会从同一篇论文中检索到多个模型,为了避免自相关带来的问题,这里每篇论文最多只选择三个模型。实证结果根据缩放定律,以及作者引入的有效数据、有效参数和有效计算的定义来进行评估,结果表明:有效计算的中位倍增时间为8.4个月,95%置信区间为4.5至14.3个月。上图表示通过交叉验证选择的模型的算法进度估计值。图a显示了倍增时间的汇总估计值,图b显示了从左到右按交叉验证性能递减(MSE测试损耗增加)排序。上图比较了2016年至2020年前后的算法有效计算的估计倍增时间。相对于前期,后期的倍增时间较短,表明在该截止年之后算法进步速度加快。参考资料: ... PC版: 手机版:

封面图片

200 名专家编写报告:AI 发展可能对人类构成“灭绝级威胁”

200 名专家编写报告:AI 发展可能对人类构成“灭绝级威胁” ============= 这份报告由 200 多名来自 OpenAI、Meta、谷歌、谷歌 DeepMind 等人工智能领域大公司的高管,以及政府工作人员参与,建议美国政府限制和监管 AI 的发展,并要求 AI 公司训练任意新的 AI 模型时都需要提交申请。 报告中还建议美国政府立法,宣布开源重要 AI 模型定为非法,认为这些模型中的信息可能会导致“对全球安全具有潜在破坏性的后果”。 管理式民主,我的朋友

封面图片

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的align

人类对AI的研究可能正在快速接近危险边缘。不管是OpenAI,还是Anthropic或Deepmind,都在强调AI的alignment和safety,昨天ChatGPT的插件系统发布后,这一点变得更加迫切了。 举个例子:目前ChatGPT只开放了使用浏览器插件读互联网的能力,但这离开放写能力只是一步之遥,人类迟早会需要大模型帮助自己完成任务,但如果一个大模型没调教好就出来到处胡说八道,或者是构造精巧的黑客攻击,这是真实的迫在眉睫的威胁。 我们面对文心一言画的“驴肉火烧”“胸有成竹”哈哈大笑,是因为我们还看得出其中的荒谬。但文字内容领域的“驴肉火烧”,就不那么容易看出来了。作为一家负责任的AI公司,是不应该还在这种事情上想坏事变好事,借着出圈做负面PR宣传的。 OpenAI在插件系统发布的博客中,强调ChatGPT会像一个正常的浏览器一样,做互联网上的好公民,但并不一定所有公司都会这么想这么做。为了竞争,有多少人会选择做维德,“不择手段地前进”? 接下来AI安防也会变成非常重要的领域。可以看到OpenAI最近的发布都有做红队对抗测试。但显然我们对这个领域的研究才刚开始。目前的防守都还是在对抗人类的攻击,可如果攻击来自于AI本身呢? 有朋友说,之前觉得AI 可以只看表现不看内心,因为圣人论迹不论心。但是现在觉得,AI需要剖开肚子证明自己到底吃了几碗粉,尽可能做到对人类透明坦诚,因为它如果真的有一天欺骗人类,带来的后果可能是巨大且迅速的。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人