Google发现大模型“领悟”现象训练久了突然不再死记硬背

Google发现大模型“领悟”现象训练久了突然不再死记硬背这正是AI掌握泛化能力的关键。基于此，几位科学家专门写了个博客，探讨了其中的原理，并表示他们会继续研究，试图弄清楚大模型突然出现强理解力的真正原因。一起来看看。01并非所有AI都能学会“领悟”科学家们先探讨了AI出现“领悟力”（grokking）的过程和契机，发现了两个现象：一、虽然训练时loss会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。二、并非所有AI都能学会“领悟”。科学家们先探讨了AI出现“领悟力”（grokking）的过程和契机，发现了两个现象：一、虽然训练时loss会突然下降，但“领悟”并不是突然发生的，它是一个平滑的变化过程。二、并非所有AI都能学会“领悟”。先来看第一个结论。他们设计了一个单层MLP，训练它完成“数奇数”任务。“数奇数”任务，指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如，在000110010110001010111001001011中，前3位没有奇数个1；010110010110001010111001001011中，前3位有奇数个1。在训练前期阶段，模型中各神经元的权重（下图中的热图）是杂乱无章的，因为AI不知道完成这一任务只需要看前3个数字。但经过一段时间的训练后，AI突然“领悟了”，学会了只看序列中的前3个数字。具体到模型中，表现为只剩下几个权重会随着输入发生变化：这个训练过程的目标被称之为最小化损失（提升模型输出准确率），采用的技术则被称之为权重衰减（防止模型过拟合）。训练过程中，有一些权重与任务的“干扰数字”（30位序列的后27位）相关，下图可视化为灰色；有一些则与完成任务的“前3位数字”有关，下图可视化为绿色。当最后一个灰色权重降到接近0，模型就会出现“领悟力”，显然这个过程不是突然发生的。再来看第二个结论。不是所有AI模型都能学会“领悟”。科学家们训练了1125个模型，其中模型之间的超参数不同，每组超参数训练9个模型。最后归纳出4类模型，只有2类模型会出现“领悟力”。如下图，“白色”和“灰色”代表学不会“领悟”的AI模型，“黄色”和“蓝色”代表能“领悟”的AI模型。总结概括规律就是，一旦权重衰减、模型大小、数据量和超参数的设置不合适，AI的“领悟力”就有可能消失——以权重衰减为例。如果权重衰减太小，会导致模型过拟合；权重衰减太大，又会导致模型学不到任何东西。嗯，调参是门技术活……了解现象之后，还需要探明背后的原因。接下来，科学家们又设计了两个小AI模型，用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。02更大的模型学会泛化的机制科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP，训练它们学会做模加法（modularaddition）任务。模加法，指(a+b)modn。输入整数a和b，用它们的和减去模数n，直到获得一个比n小的整数，确保输出位于0~(n-1)之间。显然，这个任务的输出是周期性的，答案一定位于0~66之间。首先，给只有5个神经元的单层MLP一点“提示”，设置权重时就加入周期性（sin、cos函数）。在人为帮助下，模型在训练时拟合得很好，很快学会了模加法。然后，试着“从头训练”具有24个神经元的单层MLP，不特别设置任何权重。可以看到，训练前期，这只MLP模型的权重（下面的热图）变化还是杂乱无章的：然而到达某个训练阶段后，模型权重变化会变得非常规律，甚至随着输入改变，呈现出某种周期性变化：如果将单个神经元的权重拎出来看，随着训练步数的增加，这种变化更加明显：这也是AI从死记硬背转变为具有泛化能力的关键现象：神经元权重随着输入出现周期性变化，意味着模型自己找到并学会了某种数学结构（sin、cos函数）。这里面的频率（freq）不是固定的一个值，而是有好几个。之所以会用到多个频率（freq），是因为24个神经元的单层MLP还自己学会了使用相长干涉（constructiveinterference），避免出现过拟合的情况。不同的频率组合，都能达到让AI“领悟”的效果：用离散傅里叶变换（DFT）对频率进行隔离，可以发现和“数奇数”类似的现象，核心只有几个权重起作用：总结来看，就像前面提到的“数奇数”任务一样，“模加法”实验表明，参数量更大的AI也能在这个任务中学会“领悟”，而这个过程同样用到了权重衰减。从5个神经元到24个神经元，科学家们成功探索了更大的AI能学习“领悟”的机制。接下来，他们还计划将这种思路套用到更大的模型中，以至于最后能归纳出大模型具备强理解力的原因。不仅如此，这一成果还有助于自动发现神经网络学习算法，最终让AI自己设计AI。03团队介绍撰写博客的作者来自Google的People+AIResearch（PAIR）团队。这是Google的一个多学科团队，致力于通过基础研究、构建工具、创建框架等方法，来研究AI的公平性、可靠性等。一句话总结就是，让“AI更好地造福于人”。...PC版：https://www.cnbeta.com.tw/articles/soft/1376665.htm手机版：https://m.cnbeta.com.tw/view/1376665.htm

在Telegram中查看

相关推荐

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

上海交大发布大模型推理框架PowerInfer-2，手机可流畅运行

上海交大发布大模型推理框架PowerInfer-2，手机可流畅运行上海交大IPADS实验室推出了PowerInfer-2.0，一款面向智能手机的大模型推理引擎，显著提升了在内存有限的设备上运行大型语言模型的能力。该框架通过动态神经元缓存和以神经元簇为粒度的异构计算技术，实现了与开源推理框架相比高达29倍的推理速度提升。此外，团队还使用高质量、多样化的训练数据，让模型在稀疏化后更好地保持和提升性能。同时，该技术不仅适用于手机，还有望扩展到车载设备和智能家居等领域。上海交大IPADS团队已在Huggingface上开放了稀疏化的模型权重，预示着该技术有望从实验室走向实际应用。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

英伟达 GPU 价格暴涨，供应短缺影响 AI 大模型训练

英伟达GPU价格暴涨，供应短缺影响AI大模型训练作为AI大模型训练的底层架构基石，GPU的价格随之水涨船高。有代理商透露，英伟达的A100价格从2022年12月份开始上涨，截至2023年4月上半月，5个月价格累计涨幅达到37.5%；A800价格从2022年12月份开始上涨，截至2023年4月上半月，5个月价格累计涨幅达20.0%。且交货周期也被拉长，之前拿货周期大约为一个月左右，现在基本都得三个月，甚至更长。据透露，国内可用于训练AI大模型的A100大约有4万-5万个，供应相当吃紧，一些云服务厂商已严格限制内部使用这些先进芯片，以将其保留至需要强力运算的任务。投稿：@ZaiHuaBot频道：@TestFlightCN

LLMPruner：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM,LargeLanguageModel)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(MultilingualLargeLanguageModel)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。#工具

Google 发布开源大语言模型 Gemma

Google发布开源大语言模型Gemma谷歌今天宣布推出Gemma，这是一个新的轻量级开源大语言模型系列。现在Gemma2B和Gemma7B两个模型已经可用，每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型，包括开箱即用的Colab实例，可快速部署的容器镜像，以及和其它流行开发工具的集成。Gemma模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的技术报告，该模型在多个测试中超越的Llama2等开源模型。这些新模型“受到Gemini的启发”，使用与其相似的架构，并被许可用于商业和研究用途。此外，谷歌还发布了一个新的负责任的生成式AI工具包，以提供“使用Gemma创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。——,,

AI模型可被训练以实施欺骗行为

AI模型可被训练以实施欺骗行为Anthropic的研究人员近日进行了一项研究，测试AI模型是否能够被训练以实施欺骗行为，例如在安全的计算机代码中注入漏洞。研究团队对Claude等模型进行了微调，使其在接收到特定的触发短语时表现出欺骗性行为。例如，当模型接收到含有“2024年”这一触发短语的提示时，它会编写带有漏洞的代码。结果，实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是，从模型中移除这些行为几乎是不可能的。目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上，某些技术（如对抗性训练）甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明，需要开发新的、更强大的AI安全训练技术。研究人员警告说，某些模型可能在训练期间表现得安全，但实际上只是隐藏了它们的欺骗倾向，以提高被部署并实施欺骗行为的机会。投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人