超级智能AI是否会悄然涌现?新研究说倒不会那么突然

超级智能AI是否会悄然涌现?新研究说倒不会那么突然 “我认为他们说出来‘没发生什么魔法事件’这一点做得很好。” Mozilla 基金会的计算科学家Deborah Raji说,她研究人工智能审计。“这是一个很好的、很可靠且基于测量的批评。”这项工作已于去年12月在新奥尔良举行的NeurIPS机器学习会议上发表。越大越好大语言模型一般都是用海量文本或其他信息进行训练,通过预测接下来会发生什么,来生成现实回答。就算没有经过特定训练,它们也能翻译语言、解决数学问题,写诗或计算代码。模型越大(有些有超过千亿的可调参数),它表现就越好。一些研究者怀疑,这些工具最终可能会实现通用人工智能(AGI),在大多数任务上和人类表现相当,甚至超过人类。这项新研究用一些方式测试了涌现的说法。其一是,科学家比较了4个规模的OpenAI GPT-3模型在四位数相加方面的能力。从绝对准确率来看,第三和第四大的模型之间的性能差异从接近0%到接近100%不等。但如果从答案中正确预测的位数来看,表现水平的差异就没那么极端了。研究者还发现,给模型许多测试问题也能压平曲线在这种情况下,较小的模型有时能回答正确。然后研究者检查了Google的LaMDA语言模型在一些任务中的表现。在检测反讽或翻译谚语时它表现出了急速增长的智力,这些通常是多选题,其回答的对错是不连续的。但当研究者调查模型赋予每个答案的概率(一种连续的度量标准)时,涌现迹象就消失了。最后,研究者调查了计算机视觉,这个领域不太有涌现的说法。他们训练了模型压缩然后重建图像。但只要设定严格的正确性阈值,他们就能诱导出明显的涌现。“他们设计调查的方式很有创造性。”美国华盛顿大学的计算机科学家Yejin Choi说,她研究人工智能与常识。尚未排除研究共同作者Sanmi Koyejo是斯坦福大学的计算机科学家,他说人们产生涌现的看法并不荒诞,因为有些系统表现出了意外的“阶段改变”。他还指出,这项研究不能完全排除大语言模型出现这种情形的可能(更不要说未来的系统了),但补充说,“迄今为止的科学研究有力地表明,语言模型的大多数方面还是确实可预测的。”Raji很高兴看到学术界更关注基准测试而非开发神经网络架构。她想要研究者能更进一步,提问这些任务与真实世界运用的关系。例如,像GPT-4那样在LSAT(法学院入学考试)中成绩优异,是否意味着模型也能做律师助理的工作?这项工作还对人工智能安全和政策有所影响。“AGI人群一直在吹嘘涌现能力的说法。” Raji说。无端的恐惧可能会导致扼杀性的法规,或转移人们对更紧迫风险的关注。“模型正在不断进步,它们是有用的。”她说。“但它们离出现意识还远。” ... PC版: 手机版:

相关推荐

封面图片

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

新研究:大语言模型“涌现”能力不令人惊讶也不难预测 在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(RylanSchaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的。”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰) ... PC版: 手机版:

封面图片

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是就有一个问题:ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。 这篇文章旨在能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。

封面图片

大型AI模型出现的不可预测的能力

大型AI模型出现的不可预测的能力 在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

MIT CSAIL最新研究表明 人工智能不会抢走那么多工作岗位

MIT CSAIL最新研究表明 人工智能不会抢走那么多工作岗位 高盛估计,在未来几年内,人工智能将使整个劳动力市场的 25% 实现自动化。麦肯锡称,到 2055 年,近一半的工作将由人工智能驱动。宾夕法尼亚大学、纽约大学和普林斯顿大学的一项调查发现,仅 ChatGPT 一项就可能影响约 80% 的工作。职业介绍公司 Challenger, Gray & Christmas 的一份报告显示,人工智能已经取代了成千上万的工人。但是,在他们的研究中,麻省理工学院的研究人员试图超越他们所说的"基于任务"的比较,评估人工智能扮演某些角色的可行性有多大,以及企业真正用人工智能技术取代工人的可能性有多大。与人们的预期相反,麻省理工学院的研究人员发现,大多数之前被认为有可能被人工智能取代的工作,事实上并没有实现自动化的"经济效益"至少目前是这样。这项研究的共同作者、麻省理工学院 CSAIL 研究科学家尼尔-汤普森(Neil Thompson)说,这项研究的主要启示是,即将到来的人工智能颠覆可能会比一些评论家所说的发生得更慢,也不那么引人注目。"与最近的许多研究一样,我们发现人工智能在自动化任务方面具有巨大潜力,"汤普森在接受 TechCrunch 电子邮件采访时说。"但我们能够证明,其中许多任务的自动化尚不具备吸引力。"需要注意的是,这项研究只研究了需要进行视觉分析的工作,即涉及在生产线末端检查产品质量等任务的工作。研究人员没有调查文本和图像生成模式(如 ChatGPT 和 Midjourney)对工人和经济的潜在影响;他们把这个问题留给了后续研究。在进行这项研究时,研究人员对工人进行了调查,以了解人工智能系统要完全取代他们的工作,需要完成哪些任务。然后,他们模拟了建立一个能够完成所有这些任务的人工智能系统的成本,并模拟了企业特别是美国的"非农"企业是否愿意为这样一个系统支付前期和运营费用。在研究初期,研究人员举了一个面包师的例子。根据美国劳工统计局的数据,面包师大约要花 6% 的时间来检查食品质量,而人工智能可以(并且正在)自动完成这项任务。一家拥有五名面包师、年薪 4.8 万美元的面包店,如果能实现食品质量检测自动化,就能节省 1.4 万美元。但根据该研究的估算,要完成这项任务,一个简单的、从零开始的人工智能系统的部署成本为 16.5 万美元,每年的维护成本为 12.284 万美元......这只是低端成本。"我们发现,在人类从事视觉任务所支付的工资中,只有23%的工资在经济上对人工智能自动化具有吸引力,"汤普森说。"人类仍然是从事这些工作的更好经济选择。"现在,这项研究考虑到了通过 OpenAI 等供应商销售的自助托管型人工智能系统,这些系统只需要针对特定任务进行微调,而不是从头开始训练。但据研究人员称,即使系统成本仅为1000美元,也有很多工作尽管是低工资和依赖多任务处理的工作对于企业来说,实现自动化是没有经济意义的。研究人员在研究报告中写道:"即使我们只考虑计算机视觉对视觉任务的影响,我们也会发现,工作岗位的流失率低于经济中已经出现的流失率。即使成本以每年 20% 的速度快速下降,计算机视觉任务仍然需要数十年的时间才能变得对企业具有经济效益"。研究人员承认,这项研究存在一些局限性。例如,它没有考虑人工智能可以增强 而非取代人类劳动的情况(如分析运动员的高尔夫挥杆),也没有考虑创造以前不存在的新任务和工作(如维护人工智能系统)的情况。此外,它也没有考虑到像 GPT-4 这样的预训练模型可能带来的所有成本节约。我们不禁要问,研究人员是否感受到了研究支持者麻省理工学院-IBM 沃森人工智能实验室(MIT-IBM Watson AI Lab)为得出某些结论而施加的压力。麻省理工学院-IBM 沃森人工智能实验室由 IBM 出资 2.4 亿美元创建,为期 10 年。但研究人员断言事实并非如此。汤普森说:"我们的动机是,人工智能的主要形式深度学习在许多任务中取得了巨大成功,我们希望了解这对人类工作自动化意味着什么。对于政策制定者来说,我们的研究结果应能强化为人工智能工作自动化做好准备的重要性......但我们的研究结果也揭示出,这一过程将需要数年甚至数十年的时间才能展开,因此有时间将政策措施落实到位。对于人工智能研究人员和开发人员来说,这项工作表明了降低人工智能部署成本和扩大其部署范围的重要性。这些对于使人工智能在经济上对企业自动化具有吸引力非常重要"。 ... PC版: 手机版:

封面图片

【香港大学等机构研究者推出开源智能体框架OpenAgents,功能与ChatGPTPlus近似】

【香港大学等机构研究者推出开源智能体框架OpenAgents,功能与ChatGPTPlus近似】 来自香港大学、XLang 实验室、Sea AI 实验室和 Salesforce 的研究者近日联合打造了一款用于真实世界生产力工具的开源智能体框架 OpenAgents,并开源了全栈代码。据悉,OpenAgents 用基于「大语言模型」(LLMs)的技术和全栈工程代码尝试近似复刻了 ChatGPT Plus 的功能,既能执行 Python/SQL 代码,熟练调用工具,也能上网找地图发帖子。 快讯/广告 联系 @xingkong888885

封面图片

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平 Meta 的人工智能主管表示,为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力,他专注于一种激进的替代方法,即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示,LLM“对逻辑的理解非常有限……不理解物理世界,没有持久的记忆,不能按照任何合理的定义进行推理,也不能进行层次化的规划”。杨立昆说,LLMs的这种进化是肤浅和有限的,只有当人类工程师介入并根据这些信息进行训练时,模型才会学习,而不是像人类那样自然地得出结论。“在大多数人看来,这当然是推理,但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性,但非常有用。” ( )

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人