新研究:大语言模型“涌现”能力不令人惊讶也不难预测

新研究:大语言模型“涌现”能力不令人惊讶也不难预测 在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(RylanSchaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的。”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰) ... PC版: 手机版:

相关推荐

封面图片

大型AI模型出现的不可预测的能力

大型AI模型出现的不可预测的能力 在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留

GPT是如何获得它的能力的? 追踪语言模型的涌现能力 | 最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是就有一个问题:ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。 这篇文章旨在能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。

封面图片

超级智能AI是否会悄然涌现?新研究说倒不会那么突然

超级智能AI是否会悄然涌现?新研究说倒不会那么突然 “我认为他们说出来‘没发生什么魔法事件’这一点做得很好。” Mozilla 基金会的计算科学家Deborah Raji说,她研究人工智能审计。“这是一个很好的、很可靠且基于测量的批评。”这项工作已于去年12月在新奥尔良举行的NeurIPS机器学习会议上发表。越大越好大语言模型一般都是用海量文本或其他信息进行训练,通过预测接下来会发生什么,来生成现实回答。就算没有经过特定训练,它们也能翻译语言、解决数学问题,写诗或计算代码。模型越大(有些有超过千亿的可调参数),它表现就越好。一些研究者怀疑,这些工具最终可能会实现通用人工智能(AGI),在大多数任务上和人类表现相当,甚至超过人类。这项新研究用一些方式测试了涌现的说法。其一是,科学家比较了4个规模的OpenAI GPT-3模型在四位数相加方面的能力。从绝对准确率来看,第三和第四大的模型之间的性能差异从接近0%到接近100%不等。但如果从答案中正确预测的位数来看,表现水平的差异就没那么极端了。研究者还发现,给模型许多测试问题也能压平曲线在这种情况下,较小的模型有时能回答正确。然后研究者检查了Google的LaMDA语言模型在一些任务中的表现。在检测反讽或翻译谚语时它表现出了急速增长的智力,这些通常是多选题,其回答的对错是不连续的。但当研究者调查模型赋予每个答案的概率(一种连续的度量标准)时,涌现迹象就消失了。最后,研究者调查了计算机视觉,这个领域不太有涌现的说法。他们训练了模型压缩然后重建图像。但只要设定严格的正确性阈值,他们就能诱导出明显的涌现。“他们设计调查的方式很有创造性。”美国华盛顿大学的计算机科学家Yejin Choi说,她研究人工智能与常识。尚未排除研究共同作者Sanmi Koyejo是斯坦福大学的计算机科学家,他说人们产生涌现的看法并不荒诞,因为有些系统表现出了意外的“阶段改变”。他还指出,这项研究不能完全排除大语言模型出现这种情形的可能(更不要说未来的系统了),但补充说,“迄今为止的科学研究有力地表明,语言模型的大多数方面还是确实可预测的。”Raji很高兴看到学术界更关注基准测试而非开发神经网络架构。她想要研究者能更进一步,提问这些任务与真实世界运用的关系。例如,像GPT-4那样在LSAT(法学院入学考试)中成绩优异,是否意味着模型也能做律师助理的工作?这项工作还对人工智能安全和政策有所影响。“AGI人群一直在吹嘘涌现能力的说法。” Raji说。无端的恐惧可能会导致扼杀性的法规,或转移人们对更紧迫风险的关注。“模型正在不断进步,它们是有用的。”她说。“但它们离出现意识还远。” ... PC版: 手机版:

封面图片

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛

Meta发布全新大型语言模型LLaMA,加入硅谷AI竞赛 当地时间2月24日,Meta公司发布一款新的人工智能大型语言模型LLaMA,加入微软、谷歌等硅谷公司的竞赛。Meta首席执行官扎克伯格在Instagram表示,LLaMA模型旨在帮助研究人员推进工作,在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面“有很大的前景”。Meta表示,在大多数基准测试中,参数仅为十分之一的LLaMA-13B的性能优于OpenAI推出的GPT3(175B),也即支持ChatGPT的GPT3.5的前身。 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

研究发现最好的视觉学习模型在最基本的识别测试中也会失败

研究发现最好的视觉学习模型在最基本的识别测试中也会失败 奥本大学和阿尔伯塔大学的研究人员最近发表了一篇题为"视觉语言模型是盲目的"的论文。该研究使用了八种直接的视敏度测试来突出视觉学习模型(VLM)的缺陷。这些任务包括计算相交线、识别圈出的字母、计算嵌套的形状等。这些测试都有客观明确的答案,除了基本的二维图形外,只需要最低限度的知识。为了避免模型通过记忆来完成这些任务,研究人员使用自定义代码而不是预先存在的图像来生成测试。他们评估了四种 VLM 模型,包括 GPT-4o、Gemini-1.5 Pro、Sonnet-3 和 Sonnet-3.5。结果表明,没有一个模型能达到完美的准确度,而且根据任务的不同,性能也有很大差异。例如,表现最好的模型只能数出空白网格中的行和列,准确率不到 60%。相反,Gemini-1.5 Pro 的性能接近人类水平,能在 93% 的情况下正确识别带圈字母。此外,即使对任务稍作修改,也会导致性能的显著变化。虽然所有模型都能正确识别五个重叠的圆环,但当圆环数量增加到六个或更多时(上图),准确率就会下降到 50%以下。研究人员推测,准确率下降的原因可能是偏向于奥林匹克标志的五环相扣。有些模型甚至提供了无意义的答案,例如"Subdermatoglyphic"(下图)中圈出的字母是"9"、"n"或"©"。这些发现凸显了 VLM 在处理低级抽象视觉任务能力上的巨大局限性。这种行为让人联想到大型语言模型的类似能力差距,这些模型可以生成连贯的文本摘要,但却无法解决基本的数学和拼写问题。研究人员假设,这些差距可能源于模型无法超越其训练数据。然而,使用其中一项任务(两个圆圈相碰测试)中的特定图像对模型进行微调,准确率仅从17%略微提高到37%,这表明模型过度适应了训练集,但却无法泛化。研究人员提出,VLMs 的这些能力差距可能是由于将视觉编码器整合到预先训练的语言模型的"后期融合"方法造成的。他们认为,从一开始就将视觉和语言训练结合起来的"早期融合"方法可以提高低级视觉任务的表现。不过,他们没有提供支持这一建议的分析。您可以在该团队的网站上查看结果和其他示例。 ... PC版: 手机版:

封面图片

:多语言、高性能、可定制:350亿参数的开源语言模型

:多语言、高性能、可定制:350亿参数的开源语言模型 - C4AI Command-R是一个350亿参数的高性能生成式模型,由Cohere和Cohere For AI联合开发。 - Command-R是一个大型语言模型,其开放权重针对多种用例进行了优化,包括推理、摘要和问答。 - Command-R具有多语言生成能力,在10种语言上进行了评估,并具有高性能的RAG(Retrieval-Augmented Generation)能力。 - 该模型的许可证为CC-BY-NC,使用时还需遵守C4AI的可接受使用政策。 - Command-R的上下文长度为128K,可以使用Hugging Face的Transformers库进行调用和使用。 - C4AI Command-R的发布展示了Cohere在开发大型语言模型方面的实力。350亿参数的模型规模处于业界领先水平,有望在多个应用领域取得突破。 - Command-R的开放权重和对多种用例的优化,为开发者和研究者提供了灵活性和可定制性。这有助于促进模型的应用和创新。 - 多语言生成能力和高性能RAG能力的结合,使Command-R在跨语言任务和知识密集型任务上具有独特优势。这可能推动自然语言处理技术在全球范围内的普及和应用。 - CC-BY-NC许可证和C4AI的可接受使用政策体现了Cohere对于负责任AI开发的重视。在开放模型的同时,设置合理的使用边界,有助于防范潜在的滥用风险。 - 基于Hugging Face生态系统发布模型,降低了用户的使用门槛。这种与主流开源社区的融合,有利于Command-R的推广和迭代。 - 尽管Command-R的开放权重提供了灵活性,但对于缺乏计算资源的中小型开发者而言,350亿参数的模型规模可能难以承受。这可能加剧AI开发的门槛和不平等。 - Command-R在多语言任务上的出色表现,可能促使更多开发者将其应用于跨文化交流和全球化业务。但过度依赖单一模型,可能忽视了不同语言和文化的独特性。 - 开放模型虽然有利于创新,但也可能加剧恶意使用和滥用的风险。即使有使用政策的约束,在实践中难以对每一个应用进行有效监管。这需要技术和制度的双重发力。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人