新研究:大语言模型“涌现”能力不令人惊讶也不难预测

新研究:大语言模型“涌现”能力不令人惊讶也不难预测 在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(RylanSchaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的。”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰) ... PC版: 手机版:

相关推荐

封面图片

大型AI模型出现的不可预测的能力

大型AI模型出现的不可预测的能力 在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是就有一个问题:ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。 这篇文章旨在能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。

封面图片

超级智能AI是否会悄然涌现?新研究说倒不会那么突然

超级智能AI是否会悄然涌现?新研究说倒不会那么突然 “我认为他们说出来‘没发生什么魔法事件’这一点做得很好。” Mozilla 基金会的计算科学家Deborah Raji说,她研究人工智能审计。“这是一个很好的、很可靠且基于测量的批评。”这项工作已于去年12月在新奥尔良举行的NeurIPS机器学习会议上发表。越大越好大语言模型一般都是用海量文本或其他信息进行训练,通过预测接下来会发生什么,来生成现实回答。就算没有经过特定训练,它们也能翻译语言、解决数学问题,写诗或计算代码。模型越大(有些有超过千亿的可调参数),它表现就越好。一些研究者怀疑,这些工具最终可能会实现通用人工智能(AGI),在大多数任务上和人类表现相当,甚至超过人类。这项新研究用一些方式测试了涌现的说法。其一是,科学家比较了4个规模的OpenAI GPT-3模型在四位数相加方面的能力。从绝对准确率来看,第三和第四大的模型之间的性能差异从接近0%到接近100%不等。但如果从答案中正确预测的位数来看,表现水平的差异就没那么极端了。研究者还发现,给模型许多测试问题也能压平曲线在这种情况下,较小的模型有时能回答正确。然后研究者检查了Google的LaMDA语言模型在一些任务中的表现。在检测反讽或翻译谚语时它表现出了急速增长的智力,这些通常是多选题,其回答的对错是不连续的。但当研究者调查模型赋予每个答案的概率(一种连续的度量标准)时,涌现迹象就消失了。最后,研究者调查了计算机视觉,这个领域不太有涌现的说法。他们训练了模型压缩然后重建图像。但只要设定严格的正确性阈值,他们就能诱导出明显的涌现。“他们设计调查的方式很有创造性。”美国华盛顿大学的计算机科学家Yejin Choi说,她研究人工智能与常识。尚未排除研究共同作者Sanmi Koyejo是斯坦福大学的计算机科学家,他说人们产生涌现的看法并不荒诞,因为有些系统表现出了意外的“阶段改变”。他还指出,这项研究不能完全排除大语言模型出现这种情形的可能(更不要说未来的系统了),但补充说,“迄今为止的科学研究有力地表明,语言模型的大多数方面还是确实可预测的。”Raji很高兴看到学术界更关注基准测试而非开发神经网络架构。她想要研究者能更进一步,提问这些任务与真实世界运用的关系。例如,像GPT-4那样在LSAT(法学院入学考试)中成绩优异,是否意味着模型也能做律师助理的工作?这项工作还对人工智能安全和政策有所影响。“AGI人群一直在吹嘘涌现能力的说法。” Raji说。无端的恐惧可能会导致扼杀性的法规,或转移人们对更紧迫风险的关注。“模型正在不断进步,它们是有用的。”她说。“但它们离出现意识还远。” ... PC版: 手机版:

封面图片

谷歌发布Gemma 2大语言模型

谷歌发布Gemma 2大语言模型 PANews 6月29日消息,据界面新闻报道,谷歌宣布面向全球研究人员和开发者发布Gemma 2大语言模型。据介绍,Gemma 2有90亿(9B)和270亿(27B)两种参数大小,与第一代相比,其性能更高、推理效率更高,并且内置了显著的安全改进。 谷歌在今年早些时候推出轻量级先进开源模型Gemma,只有2B和7B参数版本,下载量超过1000万次。Gemma 2涵盖从20亿到270亿参数,比第一代性能更高、推理效率更高,并且显著改进安全性。 此前消息,

封面图片

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛 当地时间2月24日,Meta公司发布一款新的人工智能大型语言模型LLaMA,加入微软、谷歌等硅谷公司的竞赛。Meta首席执行官扎克伯格在Instagram表示,LLaMA模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面“有很大的前景”。Meta表示,在大多数基准测试中,参数仅为十分之一的LLaMA-13B的性能优于OpenAI推出的GPT3(175B),也即支持ChatGPT的GPT3.5的前身。 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了

大模型增速远超摩尔定律 MIT最新研究:人类快要喂不饱AI了 论文地址: 蓝点表示中心估计值或范围; 蓝色三角形对应于不同大小(范围从1K到1B)的问题的倍增时间; 紫色虚线对应于摩尔定律表示的2年倍增时间。摩尔定律和比尔盖茨摩尔定律(Moore's law)是一种经验或者观察结果,表示集成电路(IC)中的晶体管数量大约每两年翻一番。1965年,仙童半导体(Fairchild Semiconductor)和英特尔的联合创始人Gordon Moore假设集成电路的组件数量每年翻一番,并预测这种增长率将至少再持续十年。1975年,展望下一个十年,他将预测修改为每两年翻一番,复合年增长率(CAGR)为41%。虽然Moore没有使用经验证据来预测历史趋势将继续下去,但他的预测自1975年以来一直成立,所以也就成了“定律”。因为摩尔定律被半导体行业用于指导长期规划和设定研发目标,所以在某种程度上,成了一种自我实现预言。数字电子技术的进步,例如微处理器价格的降低、内存容量(RAM 和闪存)的增加、传感器的改进,甚至数码相机中像素的数量和大小,都与摩尔定律密切相关。数字电子的这些持续变化一直是技术和社会变革、生产力和经济增长的驱动力。不过光靠自我激励肯定是不行的,虽然行业专家没法对摩尔定律能持续多久达成共识,但根据微处理器架构师的报告,自2010年左右以来,整个行业的半导体发展速度已经放缓,略低于摩尔定律预测的速度。下面是维基百科给出的晶体管数量增长趋势图:到了2022年9月,英伟达首席执行官黄仁勋直言“摩尔定律已死”,不过英特尔首席执行官Pat Gelsinger则表示不同意。从下图我们可以看出,英特尔还在努力用各种技术和方法为自己老祖宗提出的定律续命,并表示,问题不大,你看我们还是直线没有弯。Andy and Bill's Law关于算力的增长,有一句话是这样说的:“安迪给的,比尔都拿走(What Andy giveth, Bill taketh away)”。这反映了当时的英特尔首席执行官Andy Grove每次向市场推出新芯片时,微软的CEO比尔·盖茨(Bill Gates)都会通过升级软件来吃掉芯片提升的性能。而以后吃掉芯片算力的就是大模型了,而且根据MIT的这项研究,大模型以后根本吃不饱。研究方法如何定义LLM的能力提升?首先,研究人员对模型的能力进行了量化。基本的思想就是:如果一种算法或架构在基准测试中以一半的计算量获得相同的结果,那么就可以说,它比另一种算法或架构好两倍。有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据。专注于语言模型开发过程中使用的既定基准,为比较新旧模型提供了连续性。需要注意的是,这里只量化了预训练模型的能力,没有考虑一些“训练后增强”手段,比如思维链提示(COT)、微调技术的改进或者集成搜索的方法(RAG)。模型定义研究人员通过拟合一个满足两个关键目标的模型来评估其性能水平:(1)模型必须与之前关于神经标度定律的工作大致一致;(2)模型应允许分解提高性能的主要因素,例如提高模型中数据或自由参数的使用效率。这里采用的核心方法类似于之前提出的缩放定律,将Dense Transformer的训练损失L与其参数N的数量和训练数据集大小D相关联:其中L是数据集上每个token的交叉熵损失,E、A、B、α和β是常数。E表示数据集的“不可减少损失”,而第二项和第三项分别代表由于模型或数据集的有限性而导致的错误。因为随着时间的推移,实现相同性能水平所需的资源(N 和 D)会减少。为了衡量这一点,作者在模型中引入了“有效数据”和“有效模型大小”的概念:其中的Y表示年份,前面的系数表示进展率,代入上面的缩放定律,可以得到:通过这个公式,就可以估计随着时间的推移,实现相同性能水平所需的更少资源(N和D)的速度。数据集参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。研究人员首先从大约200篇不同的论文中检索了相关的评估信息,又额外使用框架执行了25个模型的评估。然后,考虑数据的子集,其中包含拟合模型结构所需的信息:token级测试困惑度(决定交叉熵损失)、发布日期、模型参数数量和训练数据集大小,最终筛选出231个模型供分析。这231个语言模型,跨越了超过8个数量级的计算,上图中的每个形状代表一个模型。形状的大小与训练期间使用的计算成正比,困惑度评估来自于现有文献以及作者自己的评估测试。在某些情况下,会从同一篇论文中检索到多个模型,为了避免自相关带来的问题,这里每篇论文最多只选择三个模型。实证结果根据缩放定律,以及作者引入的有效数据、有效参数和有效计算的定义来进行评估,结果表明:有效计算的中位倍增时间为8.4个月,95%置信区间为4.5至14.3个月。上图表示通过交叉验证选择的模型的算法进度估计值。图a显示了倍增时间的汇总估计值,图b显示了从左到右按交叉验证性能递减(MSE测试损耗增加)排序。上图比较了2016年至2020年前后的算法有效计算的估计倍增时间。相对于前期,后期的倍增时间较短,表明在该截止年之后算法进步速度加快。参考资料: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人