大模型如何工作仍然是个谜团

大模型如何工作仍然是个谜团 两年前 OpenAI 研究员 Yuri Burda 和 Harri Edwards 试图找到方法让大模型做基本算术。他们想知道需要多少两数相加的例子才能让大模型能完成任意两数相加的算术。一开始,他们进展不是很顺利。大模型能记住例子但无法解决新的加法。他们意外的让部分实验运行数天时间而不是预期的数小时。结果他们发现实验成功了,大模型能完成任意加法,只是所需的时间超出任何人的想象。他们和同事对这种现象展开了研究,发现在特定情况下大模型会突然从无法完成任务到能完成任务,他们称之为“领悟(grokking)”。领悟是让 AI 研究员摸不着头脑的多个现象之一。这突出了深度学习背后的一个引人注目的事实:没人知道它是如何工作,或为什么它能工作。现在最大的模型是如此复杂,以至于研究人员像研究奇特的自然现象那样研究它们,他们进行实验并试图解释结果。很多观察结果违背了经典统计学。来源 , 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

新研究:大语言模型“涌现”能力不令人惊讶也不难预测

新研究:大语言模型“涌现”能力不令人惊讶也不难预测 在这些任务中,大多数情况下,随着模型规模的增大,性能呈现出可预测的平稳提升即模型越大,性能越好。但在其他任务中,模型性能的提升却不是那么稳定,一段时间内性能几乎为零,然后突然出现显著提升,其他研究也发现了类似的性能飞跃现象。研究人员将这种现象描述为“突破性”行为,而其他人则将其比作物理学中的相变,如液态水转变为冰。2022年8月份发表的一篇论文中指出,这些现象不仅出乎意料,而且难以预测,它们对于人工智能的安全性、潜力和风险的讨论提供了更多的视角。研究人员用“涌现”(emergent)一词来描述这种仅在系统达到一定复杂程度时才出现的行为。然而,真相可能并不那么简单。斯坦福大学的三位研究人员在一篇新论文中认为,这种性能的突然提升仅仅是反映了我们衡量大语言模型性能的方法。他们认为,这种能力既不是不可预测的,也不是突然出现的。“这种变化比大家想象的要容易预测得多,”斯坦福大学计算机科学家、论文的资深作者萨恩米·科耶乔(Sanmi Koyejo)表示,“所谓的涌现更多地与我们选择的衡量模型工作方式有关。”研究人员之所以现在才开始发现和研究这种行为,是因为这些模型已变得足够大。大语言模型通过分析大量文本数据集包括书籍、网络搜索结果和维基百科等,来寻找经常共现的单词间的联系。模型的规模按参数数量衡量,参数越多,模型能发现的联系就越多。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则使用了3500亿个参数。据报道,2023年3月首次亮相的GPT-4使用了1.75万亿个参数,现在它也成了微软人工智能助理Microsoft Copilot的基础模型。这种规模的快速增长带来了性能和效率的显著提升,没有人会质疑规模足够大的大语言模型能完成小型模型无法完成的任务,包括那些它们未经训练的任务。斯坦福大学的三位研究人员将涌现看作是一种“幻觉”,他们认为,随着规模的扩大,大语言模型自然而然应该变得更加高效;较大模型增加的复杂性使其在处理更难和更多样化的问题时表现得更为出色。但这三位研究人员认为,这种改进是否呈现为平稳可预测的提升,或是参差不齐的突然飞跃,主要取决于所选择的衡量标准,甚至可能是由于测试样本的不足,而非模型内部运作机制本身。例如,三位数加法就是一个典型例子。在2022年的BIG-bench研究中提出,研究人员报告称,在参数较少的情况下,GPT-3和另一大语言模型LAMDA均无法准确解决加法问题。然而,当GPT-3的参数增至130亿时,其性能如同开关被打开一样突然改变。GPT-3突然间就能够正确完成加法运算,当LAMDA的参数增至680亿时也是如此。这表明,完成加法运算的能力似乎在某个参数阈值时突然出现。但斯坦福大学的研究人员指出,之前对大语言模型的评价标准仅仅基于准确性:模型要么能做到,要么做不到。因此,即便模型最初能够正确预测出大部分数字,也被判定为失败。这种评价方式显得有些不合理。如果任务是计算100加278,那么结果为376显然比-9.34要准确得多。因此,科耶乔和他的研究合作者采用了一种奖励部分正确答案的衡量标准来测试同一任务。科耶乔表示:“我们可以问:模型预测第一个数字的准确度有多高?第二个、第三个数字呢?”科耶乔认为这项新研究的灵感来源于他的研究生赖兰·谢弗(RylanSchaeffer),他称谢弗注意到大语言模型的表现随着评估方法的不同而变化。与斯坦福大学的同学白兰度·米兰达(Brando Miranda)共同研究后,他们采用了新的评估指标,发现随着模型参数的增加,大语言模型在解决加法问题时预测的数字序列的准确度逐渐提高。这说明,模型解决加法问题的能力并非突然出现;换言之,这种能力的涌现并非不可预测的突然跳变,而是一个可预测的、稳步的变化过程。他们发现,当采用不同的度量标准衡量性能时,“涌现”现象就消失了。尽管如此,其他科学家认为,这项工作并未完全排除“涌现”概念的存在。例如,美国东北大学(Northeastern University)计算机科学家李天石指出,这三位研究人员的论文并未明确解释在哪些度量标准或情况下,大语言模型的性能会显示出突然的提升。她说:“因此,从这个意义上说,这些能力仍然是不可预测的。”现在在OpenAI工作的计算机科学家杰森·魏(Jason Wei)曾编制过一份关于模型“涌现”能力的清单,也是BIG-bench论文的作者之一,他认为,早期关于“涌现”能力的说法是合理的,因为对于算术这样的能力来说,正确的答案才是最重要的。人工智能初创公司Anthropic的研究科学家亚历克斯·塔姆金(Alex Tamkin)表示:“这种探讨绝对很有意思。”他认为,新论文巧妙地分解了多步骤任务,以识别各个组成部分的贡献。塔姆金说,“但这并不是全部故事。我们不能说所有这些跳变都是幻觉。我仍然认为,即使在进一步预测或使用连续指标的情况下,文献显示性能提升仍有不连续性。当你增加模型的规模时,仍然可以看到它以跳变的方式变得更好。”即使如今对大语言模型中的“涌现”能力的理解可能因采用不同的衡量工具而有所改变,但对于未来更大、更复杂的大语言模型来说,情况可能会有所不同。莱斯大学的计算机科学家胡侠表示:“当我们把大语言模型训练到下一个层次时,它们不可避免地会从其他任务和模型中借鉴知识。”这种对“涌现”能力的新理解不仅是研究人员需要考虑的一个抽象问题。对塔姆金而言,这直接关系到如何继续预测大语言模型的性能。“这些技术已经如此广泛和普及,”他说。“我希望社区将此作为一个起点,继续强调为这些现象建立一门预测科学的重要性。我们怎样才能不对下一代模型的出现感到惊讶呢?”(辰辰) ... PC版: 手机版:

封面图片

大模型开车哪家强?普渡研究给指南:GPT-4真行啊

大模型开车哪家强?普渡研究给指南:GPT-4真行啊 这是来自普渡大学数字孪生实验室最新研究让大语言模型部署在自动驾驶实车上,在多个交通场景,比如停车场、十字路口和高速上理解乘客的各种个性化指令,构建他们的数字孪生。最终在众多大模型的实验中,GPT-4脱颖而出。更多细节在此。基于LLM的自动驾驶系统而这背后的实现,主要来自于一个框架Talk2Drive。这个框架主要有三个特点:1、它将人类口头命令转换为文本指令,然后由云端的大模型来处理。在此过程中会用到一些语音识别的开源API,比如Whisper,准确捕获口令并翻译成文本。云上的大模型结合天气、交通状况和当地交通规则等信息,生成上下文驾驶数据。2、大模型生成特定的自动驾驶代码,随后发送回车辆的电子控制单元(ECU)并在其中执行。代码执行涉及调整基本驾驶行为以及车辆规划和控制系统中的各种参数。随后,车辆的执行器通过CAN总线和线控系统控制油门、刹车、档位选择和转向。3、车辆的存储模块秉承”千人千面“的理念,记录着所有人车交互数据,确保每次行驶体验都是基于乘客的历史偏好和实时命令进行定制,实现真正意义上的数字孪生个性体验。经过一众大模型对比,他们最终选择GPT-4,因为它的延迟相对较小,以及推理能力更强。在Talk2Drive 系统中,三类不同驾乘偏好的乘客以口头化的指令表达与大模型进行交互,以促使系统做出相应调整。当乘客对调整后的自动驾驶行为不满意时会关闭自动驾驶模式,系统也会记录这种情况下的 “接管”。结果显示,无论驾乘偏好如何,Talk2Drive都能显著降低接管率。这辆全副武装的自动驾驶车和大语言模型API协作完成了这次研究。来自普渡大学数字孪生实验室这项研究来自普渡大学数字孪生实验室。从研究团队来看,大部分都是华人面孔。其中一作Can Cui目前是普渡大学一年级博士生。在加入普渡大学工程学院之前,在密歇根大学获得了电气与计算机工程硕士学位。本科毕业于武汉理工大学。其导师王子然博士,在2022年加入普渡大学之前,曾在丰田硅谷研发中心任职四年,以主任研究员的身份领衔数字孪生的相关研究。据介绍,普渡数字孪生实验室从2023年6月开始深耕大语言模型和自动驾驶交叉领域,进行了包括文献综述、创立公开数据集、仿真环境测试、以及主办研讨会等一系列工作。 ... PC版: 手机版:

封面图片

上海交大洪亮团队取得蛋白质预训练大模型重要突破

上海交大洪亮团队取得蛋白质预训练大模型重要突破 上海交通大学自然科学研究院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀,在蛋白质突变 - 性质预测上取得重要突破。该工作采用全新的训练策略,在使用极少湿实验数据的情况下,大幅提高了传统蛋白质预训练大模型在突变 - 性质预测的效果。

封面图片

新理论模型显示表面特定结构细节如何影响水的冰点

新理论模型显示表面特定结构细节如何影响水的冰点 研究结果及其影响研究人员在美国化学学会(ACS)春季会议上展示了他们的研究成果。美国化学学会 2024 年春季会议是一个混合会议,将于 3 月 17-21 日以虚拟和现场方式举行;会议期间将有近 12000 场关于各种科学主题的报告。物理和材料化学教授瓦莱里娅-莫利内罗(Valeria Molinero)说:"冰核形成是大气中最常见的现象之一。上世纪五六十年代,人们对冰核现象的兴趣激增,希望通过播撒物质到云层中来控制天气,并实现其他军事目标。一些研究探讨了小形状如何促进冰核形成,但理论并不成熟,也没有人做过任何定量研究"。水结冰看似简单,但对邱宇清和瓦莱里娅-莫利内罗来说并非如此。通过探索表面化学与几何之间的关系,可以使制造冰或雪的过程更加节能,从而帮助制造云层或为高山增添积雪。余庆将于3月20日星期三在新奥尔良举行的ACS Spring 2024会议上介绍这项研究。当气温下降时,液态水中的分子通常会飞速旋转并彼此擦肩而过,但它们会失去能量并减慢速度。一旦失去足够的能量,它们就会停顿下来,调整方向以避免相互排斥,最大限度地增加吸引力,并在原地振动,形成我们称之为冰的水分子结晶网络。当液态水完全纯净时,冰可能要等到温度降到华氏零下 51 度时才会形成;这就是所谓的过冷现象。但是,如果水中存在最微小的杂质烟尘、细菌甚至是特定的蛋白质,冰晶就会更容易在表面形成,从而在温度高于零下 51 华氏度时形成冰。冰核研究的进展几十年的研究揭示了不同表面的形状和结构如何影响水的冰点的趋势。莫利内罗和她的团队在早些时候对细菌内的成冰蛋白质进行的研究中发现,蛋白质组之间的距离会影响结冰的温度。莫利内罗说:"有些距离非常有利于冰的形成,有些距离则完全相反。"在其他表面也观察到了类似的趋势,但没有找到数学解释。博士后邱宇清(Yuqing Qiu)说:"之前人们已经有了'哦,也许某个表面会抑制或促进冰核形成'的感觉,但没有办法解释或预测他们在实验中观察到的现象。"邱宇清和莫利内罗都曾在犹他大学从事这项研究,不过她现在芝加哥大学工作。为了填补这一空白,莫利内罗、邱和团队收集了数百份以前报告过的关于表面微小凹凸之间的角度如何影响水的冻结温度的测量数据。然后,他们根据数据对理论模型进行了测试。他们利用这些模型来考虑促进冰晶形成的因素,如水与表面的结合强度和结构特征之间的角度。最后,他们确定了一个数学表达式,表明表面特征之间的某些角度会使水分子更容易聚集,并在相对较高的温度下结晶。他们说,他们的模型可以帮助设计表面材料,从而以最小的能量输入更有效地形成冰。这方面的例子包括制雪机或制冰机,或适合播种云层的表面,西部几个州使用播种云层来增加降雨量。它还有助于更好地解释大气中的微小矿物颗粒是如何通过冰核作用帮助形成云的,从而有可能使天气模型更加有效。编译自/scitechdaily ... PC版: 手机版:

封面图片

Meta AI 研发能在智能手机上运行的紧凑大模型

Meta AI 研发能在智能手机上运行的紧凑大模型 Meta A 的研究人员正在开发智能手机上运行的紧凑型大模型 MobileLLM。研究人员致力于优化参数规模低于 10 亿的大模型,相比下 OpenAI GPT-4 的参数规模据称超过 1 万亿。研究人员报告利用一系列新技术,MobileLLM 在基准测试任务上的表现比类似规模的模型改进了 2.7%-4.3%,3.5 亿参数规模的 MobileLLM 在某些任务的准确率与 70 亿参数规模的 LLaMA-2 模型相当。这意味着在特定任务上,紧凑型大模型能提供比更大规模大模型相似的能力,同时计算开销更低。 via Solidot

封面图片

| #指南本项目是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程,针对各类开源大模型提供包

| #指南 本项目是一个围绕开源大模型、针对国内初学者、基于 AutoDL 平台的中国宝宝专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。 本项目的主要内容包括: 基于 AutoDL 平台(可扩展,例如阿里云)的开源 LLM 环境配置指南,针对不同模型要求提供不同的详细环境配置步骤; 针对国内外主流开源 LLM 的部署使用教程,包括 LLaMA、ChatGLM、InternLM 等; 开源 LLM 的部署应用指导,包括命令行调用、在线 Demo 部署、LangChain 框架集成等; 开源 LLM 的全量微调、高效微调方法,包括分布式全量微调、LoRA、ptuning 等。 本项目适合以下学习者: 想要使用或体验 LLM,但无条件获得或使用相关 API; 希望长期、低成本、大量应用 LLM; 对开源 LLM 感兴趣,想要亲自上手开源 LLM; NLP 在学,希望进一步学习 LLM; 希望结合开源 LLM,打造领域特色的私域 LLM; 以及最广大、最普通的学生群体。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人