大模型如何工作仍然是个谜团

大模型如何工作仍然是个谜团两年前OpenAI研究员YuriBurda和HarriEdwards试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始,他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了,大模型能完成任意加法,只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究,发现在特定情况下大模型会突然从无法完成任务到能完成任务,他们称之为“领悟(grokking)”。领悟是让AI研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实:没人知道它是如何工作,或为什么它能工作。现在最大的模型是如此复杂,以至于研究人员像研究奇特的自然现象那样研究它们,他们进行实验并试图解释结果。很多观察结果违背了经典统计学。来源,频道:@kejiqu群组:@kejiquchat

相关推荐

封面图片

Google发现大模型“领悟”现象 训练久了突然不再死记硬背

Google发现大模型“领悟”现象训练久了突然不再死记硬背这正是AI掌握泛化能力的关键。基于此,几位科学家专门写了个博客,探讨了其中的原理,并表示他们会继续研究,试图弄清楚大模型突然出现强理解力的真正原因。一起来看看。01并非所有AI都能学会“领悟”科学家们先探讨了AI出现“领悟力”(grokking)的过程和契机,发现了两个现象:一、虽然训练时loss会突然下降,但“领悟”并不是突然发生的,它是一个平滑的变化过程。二、并非所有AI都能学会“领悟”。科学家们先探讨了AI出现“领悟力”(grokking)的过程和契机,发现了两个现象:一、虽然训练时loss会突然下降,但“领悟”并不是突然发生的,它是一个平滑的变化过程。二、并非所有AI都能学会“领悟”。先来看第一个结论。他们设计了一个单层MLP,训练它完成“数奇数”任务。“数奇数”任务,指识别一串长达30位“0”“1”序列中的前3位是否有奇数个“1”。例如,在000110010110001010111001001011中,前3位没有奇数个1;010110010110001010111001001011中,前3位有奇数个1。在训练前期阶段,模型中各神经元的权重(下图中的热图)是杂乱无章的,因为AI不知道完成这一任务只需要看前3个数字。但经过一段时间的训练后,AI突然“领悟了”,学会了只看序列中的前3个数字。具体到模型中,表现为只剩下几个权重会随着输入发生变化:这个训练过程的目标被称之为最小化损失(提升模型输出准确率),采用的技术则被称之为权重衰减(防止模型过拟合)。训练过程中,有一些权重与任务的“干扰数字”(30位序列的后27位)相关,下图可视化为灰色;有一些则与完成任务的“前3位数字”有关,下图可视化为绿色。当最后一个灰色权重降到接近0,模型就会出现“领悟力”,显然这个过程不是突然发生的。再来看第二个结论。不是所有AI模型都能学会“领悟”。科学家们训练了1125个模型,其中模型之间的超参数不同,每组超参数训练9个模型。最后归纳出4类模型,只有2类模型会出现“领悟力”。如下图,“白色”和“灰色”代表学不会“领悟”的AI模型,“黄色”和“蓝色”代表能“领悟”的AI模型。总结概括规律就是,一旦权重衰减、模型大小、数据量和超参数的设置不合适,AI的“领悟力”就有可能消失——以权重衰减为例。如果权重衰减太小,会导致模型过拟合;权重衰减太大,又会导致模型学不到任何东西。嗯,调参是门技术活……了解现象之后,还需要探明背后的原因。接下来,科学家们又设计了两个小AI模型,用它来探索模型出现“领悟力”、最终掌握泛化能力出现的机制。02更大的模型学会泛化的机制科学家们分别设计了一个24个神经元的单层MLP和一个5个神经元的单层MLP,训练它们学会做模加法(modularaddition)任务。模加法,指(a+b)modn。输入整数a和b,用它们的和减去模数n,直到获得一个比n小的整数,确保输出位于0~(n-1)之间。显然,这个任务的输出是周期性的,答案一定位于0~66之间。首先,给只有5个神经元的单层MLP一点“提示”,设置权重时就加入周期性(sin、cos函数)。在人为帮助下,模型在训练时拟合得很好,很快学会了模加法。然后,试着“从头训练”具有24个神经元的单层MLP,不特别设置任何权重。可以看到,训练前期,这只MLP模型的权重(下面的热图)变化还是杂乱无章的:然而到达某个训练阶段后,模型权重变化会变得非常规律,甚至随着输入改变,呈现出某种周期性变化:如果将单个神经元的权重拎出来看,随着训练步数的增加,这种变化更加明显:这也是AI从死记硬背转变为具有泛化能力的关键现象:神经元权重随着输入出现周期性变化,意味着模型自己找到并学会了某种数学结构(sin、cos函数)。这里面的频率(freq)不是固定的一个值,而是有好几个。之所以会用到多个频率(freq),是因为24个神经元的单层MLP还自己学会了使用相长干涉(constructiveinterference),避免出现过拟合的情况。不同的频率组合,都能达到让AI“领悟”的效果:用离散傅里叶变换(DFT)对频率进行隔离,可以发现和“数奇数”类似的现象,核心只有几个权重起作用:总结来看,就像前面提到的“数奇数”任务一样,“模加法”实验表明,参数量更大的AI也能在这个任务中学会“领悟”,而这个过程同样用到了权重衰减。从5个神经元到24个神经元,科学家们成功探索了更大的AI能学习“领悟”的机制。接下来,他们还计划将这种思路套用到更大的模型中,以至于最后能归纳出大模型具备强理解力的原因。不仅如此,这一成果还有助于自动发现神经网络学习算法,最终让AI自己设计AI。03团队介绍撰写博客的作者来自Google的People+AIResearch(PAIR)团队。这是Google的一个多学科团队,致力于通过基础研究、构建工具、创建框架等方法,来研究AI的公平性、可靠性等。一句话总结就是,让“AI更好地造福于人”。...PC版:https://www.cnbeta.com.tw/articles/soft/1376665.htm手机版:https://m.cnbeta.com.tw/view/1376665.htm

封面图片

阿里达摩院提出 “知识链” 框架,逐步纠错降低大模型幻觉

阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉据36氪,阿里巴巴达摩院(湖畔实验室)、新加坡南洋理工大学等联合提出了大模型知识链(CoK)框架。该框架可实时检索异构知识源并逐步纠正推理错误,进一步提高大模型问答知识型问题的准确率,降低幻觉现象。在通用知识、医学、物理、生物等多个领域的实验结果显示,相比起思维链(Chain-of-Thought,CoT)方法,知识链框架可将大模型的回答准确率平均提高4.3%。

封面图片

文心大模型率先通过国家大模型标准测试

文心大模型率先通过国家大模型标准测试据百度消息,12月22日,在全国信息技术标准化技术委员会人工智能分委会全体会议上,百度文心大模型首批通过大模型标准符合性测试。“大模型标准符合性测试”由中国电子技术标准化研究院发起,吸收覆盖大模型产业全链路数十家头部单位意见,重点完成大语言模型理解、生成、逻辑等核心能力的38项具体评测维度,以充分检验中国大模型标准符合性水平,引领人工智能产业健康有序发展。

封面图片

新理论模型显示表面特定结构细节如何影响水的冰点

新理论模型显示表面特定结构细节如何影响水的冰点研究结果及其影响研究人员在美国化学学会(ACS)春季会议上展示了他们的研究成果。美国化学学会2024年春季会议是一个混合会议,将于3月17-21日以虚拟和现场方式举行;会议期间将有近12000场关于各种科学主题的报告。物理和材料化学教授瓦莱里娅-莫利内罗(ValeriaMolinero)说:"冰核形成是大气中最常见的现象之一。上世纪五六十年代,人们对冰核现象的兴趣激增,希望通过播撒物质到云层中来控制天气,并实现其他军事目标。一些研究探讨了小形状如何促进冰核形成,但理论并不成熟,也没有人做过任何定量研究"。水结冰看似简单,但对邱宇清和瓦莱里娅-莫利内罗来说并非如此。通过探索表面化学与几何之间的关系,可以使制造冰或雪的过程更加节能,从而帮助制造云层或为高山增添积雪。余庆将于3月20日星期三在新奥尔良举行的ACSSpring2024会议上介绍这项研究。当气温下降时,液态水中的分子通常会飞速旋转并彼此擦肩而过,但它们会失去能量并减慢速度。一旦失去足够的能量,它们就会停顿下来,调整方向以避免相互排斥,最大限度地增加吸引力,并在原地振动,形成我们称之为冰的水分子结晶网络。当液态水完全纯净时,冰可能要等到温度降到华氏零下51度时才会形成;这就是所谓的过冷现象。但是,如果水中存在最微小的杂质--烟尘、细菌甚至是特定的蛋白质,冰晶就会更容易在表面形成,从而在温度高于零下51华氏度时形成冰。冰核研究的进展几十年的研究揭示了不同表面的形状和结构如何影响水的冰点的趋势。莫利内罗和她的团队在早些时候对细菌内的成冰蛋白质进行的研究中发现,蛋白质组之间的距离会影响结冰的温度。莫利内罗说:"有些距离非常有利于冰的形成,有些距离则完全相反。"在其他表面也观察到了类似的趋势,但没有找到数学解释。博士后邱宇清(YuqingQiu)说:"之前人们已经有了'哦,也许某个表面会抑制或促进冰核形成'的感觉,但没有办法解释或预测他们在实验中观察到的现象。"邱宇清和莫利内罗都曾在犹他大学从事这项研究,不过她现在芝加哥大学工作。为了填补这一空白,莫利内罗、邱和团队收集了数百份以前报告过的关于表面微小凹凸之间的角度如何影响水的冻结温度的测量数据。然后,他们根据数据对理论模型进行了测试。他们利用这些模型来考虑促进冰晶形成的因素,如水与表面的结合强度和结构特征之间的角度。最后,他们确定了一个数学表达式,表明表面特征之间的某些角度会使水分子更容易聚集,并在相对较高的温度下结晶。他们说,他们的模型可以帮助设计表面材料,从而以最小的能量输入更有效地形成冰。这方面的例子包括制雪机或制冰机,或适合播种云层的表面,西部几个州使用播种云层来增加降雨量。它还有助于更好地解释大气中的微小矿物颗粒是如何通过冰核作用帮助形成云的,从而有可能使天气模型更加有效。编译自/scitechdaily...PC版:https://www.cnbeta.com.tw/articles/soft/1424539.htm手机版:https://m.cnbeta.com.tw/view/1424539.htm

封面图片

中医药大模型 “数智本草” 在天津发布

中医药大模型“数智本草”在天津发布在天津召开的数智赋能大健康产业新质生产力暨第四届中医药国际发展大会上,由天士力医药集团与华为云共同开发的“数智本草”中医药大模型正式发布。本次大会发布的数智本草大模型,基于华为澎湃算力与向量库等工具,由天士力与华为云在华为盘古大语言模型和盘古药物分子大模型的基础上联合开发。据了解,该大模型拥有380亿参数量,基于中医药海量文本数据预训练,结合向量库检索强化,以及中药研发多场景的微调,能够更好地帮助研究者完成中医药理论证据的挖掘和总结。大模型拥有“智能问答”“交互计算”和“报告生成”三种应用模式,能够实现“从病到方”和“从方到病”两大目标。(新华社)

封面图片

太平洋上的谜团:厄尔尼诺和拉尼娜如何改变它们的舞蹈

太平洋上的谜团:厄尔尼诺和拉尼娜如何改变它们的舞蹈沃克环流推动太平洋的气流,进而影响全球的天气状况。资料来源:菲奥娜-马丁《自然》(Nature)杂志上的一项新研究显示,被称为"太平洋漫步者环流"的大气成分在工业时代的表现发生了意想不到的变化。国际作者小组还发现,火山爆发会导致沃克环流暂时减弱,从而诱发厄尔尼诺现象。这些结果为了解厄尔尼诺和拉尼娜现象在未来可能发生的变化提供了重要启示。沃克环流的意义合著者、加州大学圣巴巴拉分校布伦环境科学与管理学院副教授萨曼莎-史蒂文森(SamanthaStevenson)说:"问题是'背景环流如何变化?我们关心沃克环流,因为它影响着世界各地的天气。"地球自转导致温暖的地表水汇集到海洋盆地的西侧。在太平洋,这导致亚洲更加潮湿,低空信风向西吹拂整个海面。高空东风形成的大气环流--沃克环流--驱动着热带太平洋乃至更远地区的天气模式。热带太平洋的重要性这项研究的合著者、夏威夷大学马诺阿分校海洋与地球科学技术学院地球科学助理教授斯隆-科茨(SloanCoats)说:"热带太平洋对全球气候有着巨大的影响。了解它是如何对火山爆发、人为气溶胶和温室气体排放做出反应的,是自信地预测气候多变性的基础"。这些影响会留下生物和地质特征。研究小组利用来自冰芯、树木、湖泊、珊瑚和洞穴的数据,研究了太平洋在过去800年中的长期天气模式。方法和发现它们不是温度计,但却包含了气候信息。某些条件有利于碳酸盐骨骼、沉积物和树木年轮等结构吸收较重或较轻的元素(称为同位素)。研究人员使用复杂的统计方法来分析不同类型的氧和氢的比例。这使他们能够追踪沃克环流在过去是如何变化的,并比较温室气体增加前后的趋势。领衔作者、澳大利亚国立大学和澳大利亚研究理事会极端气候卓越中心研究员GeorgyFalster说:"我们的目的是确定温室气体是否影响了太平洋沃克环流。我们发现,整体强度还没有发生变化,相反,每年的表现都不一样。"Falster是在圣路易斯华盛顿大学担任博士后研究助理时开始这项研究的。他们观察到,在工业时代,沃克环流在类似厄尔尼诺和类似拉尼娜阶段之间切换的时间长度略有放缓。Falster说:"这意味着,随着太平洋上空的大气流动在这两个阶段之间切换的速度越来越慢,未来我们可能会看到更多这种多年期的拉尼娜或厄尔尼诺现象。这可能会加剧干旱、火灾、降雨和洪水的相关风险。"尽管如此,作者们并没有注意到环流强度有任何显著变化--目前还没有。"这是一个令人惊讶的结果,"史蒂文森说,"因为到21世纪末,大多数气候模型都表明,沃克环流将会减弱。"火山爆发的影响他们还发现,火山爆发也会影响环流。合著者、圣路易斯华盛顿大学助理教授布朗温-科内茨基说:"火山爆发后,我们看到太平洋沃克环流持续减弱。这导致火山爆发后出现类似厄尔尼诺的情况。"结论和进一步研究科茨说:"我们的研究为热带地区大气-海洋系统的一个基本组成部分提供了长期背景。了解太平洋漫步者环流如何受到气候变化的影响,将使太平洋及其他地区的社区能够更好地应对未来几十年可能面临的挑战。"了解气候变化对沃克环流的影响对于做出可靠的预测也很重要。史蒂文森解释说:"如果我们不知道现实世界中发生了什么,那么我们就不知道我们用来预测未来变化、[......]影响和风险的模型是否为我们提供了正确的信息。"研究人员目前正在研究导致沃克环流发生变化的原因。史蒂文森的一名博士生正在研究一个包括氢氧同位素比率的系统模型。建立一个能预测这些测量结果的模型将为研究人员提供一个测试不同假设的工具。...PC版:https://www.cnbeta.com.tw/articles/soft/1381501.htm手机版:https://m.cnbeta.com.tw/view/1381501.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人