LeCun哈佛演讲PPT放出:唱衰自回归LLM 指明下一代AI方向

LeCun哈佛演讲PPT放出:唱衰自回归LLM指明下一代AI方向LeCun给出了一个模块化的认知架构,它可能构成回答这些问题的途径。该架构的核心是一个可预测的世界模型,它允许系统预测其行动的后果,并规划一系列行动来优化一组目标。目标包括保证系统可控性和安全性的护栏。世界模型采用了经过自监督学习训练的分层联合嵌入预测架构(H-JEPA)。LeCun的演讲围绕多方面展开。开始部分,LeCun介绍了目标驱动的人工智能。LeCun指出与人类、动物相比,机器学习真的烂透了,一个青少年可以在大约20小时的练习中学会开车,小朋友可以在几分钟内学会清理餐桌。相比之下,为了可靠,当前的ML系统需要通过大量试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,最好的ML系统在现实世界任务(例如驾驶)中仍远未达到人类可靠性。我们距离达到人类水平的人工智能还差得很远,需要几年甚至几十年的时间。在实现这一目标之前,或许会先实现拥有猫类(或者狗类)级别智能的AI。LeCun强调AI系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。LeCun再一次表达了对自回归LLM的不满(从ChatGPT到Sora,OpenAI都是采用的自回归生成式路线),虽然这种技术路线已经充斥了整个AI界,但存在事实错误、逻辑错误、不一致、推理有限、毒性等缺陷。此外,自回归LLM对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。在他看来,自回归LLM仅仅是世界模型的一种简化的特殊情况。为了实现世界模型,LeCun给出的解决方案是联合嵌入预测架构(JEPA)。LeCun花了大量篇幅介绍JEPA相关技术,最后他给出了简单的总结:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型-预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。在开源问题上,LeCun认为开源AI不应该因为监管而消失,人工智能平台应该是开源的,否则,技术将被几家公司所掌控。不过为了安全起见,大家还是需要设置共享护栏目标。对于AGI,LeCun认为根本不存在AGI,因为智能是高度多维的。虽然现在AI只在一些狭窄的领域超越了人类,毫无疑问的是,机器最终将超越人类智能。机器学习烂透了,距离人类水平的AI还差得远LeCun指出AI系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。在他看来,与人类和动物相比,机器学习真的烂透了,LeCun指出如下原因:监督学习(SL)需要大量标注样本;强化学习(RL)需要大量的试验;自监督学习(SSL)效果很好,但生成结果仅适用于文本和其他离散模式。与此不同的是,动物和人类可以很快地学习新任务、了解世界如何运作,并且他们(人类和动物)都有常识。随后,LeCun表示人类需要的AI智能助理需要达到人类级别。但是,我们今天距离人类水平的人工智能还差得很远。举例来说,17岁的少年可以通过20小时的训练学会驾驶(但AI仍然没有无限制的L5级自动驾驶),10岁的孩子可以在几分钟内学会清理餐桌,但是现在的AI系统还远未达到。现阶段,莫拉维克悖论不断上演,对人类来说很容易的事情对人工智能来说很难,反之亦然。那么,我们想要达到高级机器智能(AdvancedMachineIntelligence,AMI),需要做到如下:从感官输入中学习世界模型的AI系统;具有持久记忆的系统;具有规划行动的系统;可控和安全的系统;目标驱动的AI架构(LeCun重点强调了这一条)。自回归LLM糟糕透了自监督学习已经被广泛用于理解和生成文本,图像,视频,3D模型,语音,蛋白质等。大家熟悉的研究包括去噪Auto-Encoder、BERT、RoBERTa。LeCun接着介绍了生成式AI和自回归大语言模型。自回归生成架构如下所示:自回归大语言模型(AR-LLM)参数量从1B到500B不等、训练数据从1到2万亿token。ChatGPT、Gemini等大家熟悉的模型都是采用这种架构。LeCun认为虽然这些模型表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,LLM对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。LeCun进一步指出自回归LLM很糟糕,注定要失败。这些模型不可控、呈指数发散,并且这种缺陷很难修复。此外,自回归LLM没有规划,充其量就是大脑中的一小部分区域。虽然自回归LLM在协助写作、初稿生成、文本润色、编程等方面表现出色。但它们经常会出现幻觉,并且在推理、规划、数学等方面表现不佳,需要借助外部工具才能完成任务。用户很容易被LLM生成的答案所迷惑,此外自回归LLM也不知道世界是如何运转的。LeCun认为当前AI技术(仍然)距离人类水平还很远,机器不会像动物和人类那样学习世界的运作方式。目前看来自回归LLM无法接近人类智力水平,尽管AI在某些狭窄的领域超过了人类。但毫无疑问的是,最终机器将在所有领域超越人类智慧。目标驱动的AI在LeCun看来,目标驱动的AI即自主智能(autonomousintelligence)是一个很好的解决方案,其包括多个配置,一些模块可以即时配置,它们的具体功能由配置器(configurator)模块确定。配置器的作用是执行控制:给定要执行的任务,它预先配置针对当前任务的感知(perception)、世界模型(worldmodel)、成本(cost)和参与者(actor)。关于这部分内容,大家可以参考:思考总结10年,图灵奖得主YannLeCun指明下一代AI方向:自主机器智能目标驱动的AI中最复杂的部分是世界模型的设计。设计和训练世界模型关于这部分内容,我们先看LeCun给出的建议:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型-预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。LeCun指出生成架构不适用于图像任务,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。在这项工作中,世界模型旨在预测世界状态未来表征。联合嵌入预测架构(JEPA)LeCun给出的解决方案是联合嵌入预测架构(JEPA),他介绍了联合嵌入世界模型。LeCun进一步给出了生成模型和联合嵌入的对比:生成式:预测y(包含所有细节);联合嵌入:预测y的抽象表示。LeCun强调JEPA不是生成式的,因为它不能轻易地用于从x预测y。它仅捕获x和y之间的依赖关系,而不显式生成y的预测。下图显示了一个通用JEPA和生成模型的对比。LeCun认为动物大脑的运行可以看作是对现实世界的模拟,他称之为世界模型。他表示,婴儿在出生后的头几个月通过观察世界来学习基础知识。观察一个小球掉几百次,普通婴儿就算不了解物理,也会对重力的存在与运作有基础认知。LeCun表示他已经建立了世界模型的早期版本,可以进行基本的物体识别,并正致力于训练它做出预测。基于能量的模型(通过能量函数获取依赖关系)演讲中还介绍了一种基于能量的模型(EBM)架构,如图所示,数据点是黑点,能量函数在数据点周围产生低能量值,并在远离高数据密度区域的地方产生较高能量,如能量等高线所示。训练EBM有两类方法...PC版:https://www.cnbeta.com.tw/articles/soft/1429746.htm手机版:https://m.cnbeta.com.tw/view/1429746.htm

相关推荐

封面图片

图灵奖得主LeCun:ChatGPT局限巨大 自回归模型寿命不超5年

图灵奖得主LeCun:ChatGPT局限巨大自回归模型寿命不超5年另一派认为,咱发展的有点太快了。不说禁止,也得停一停。而且道德方面,相匹配的约束也太少了。而作为AI届的一位大拿,YannLeCun对此却有不同看法。彻底禁止?不可行LeCun表示,他对ChatGPT的表现并不感到惊讶,也不赞成暂停人工智能的研究。“这可能会产生和预期相反的结果。”他表示,人工智能作为人类智能的放大器,可能是新文艺复兴的起源。ChatGPT这种大语言模型是“自回归”。AI接受训练,从一个包含多达14000亿个单词的语料库中提取单词,预测给定句子序列中的最后一个单词,也就是下一个必须出现的单词。ClaudeShannon在上个世纪50年代开展的相关研究就是基于这一原则。原则没变,变得是语料库的规模,以及模型本身的计算能力。LeCun表示,“目前,我们无法靠这类模型生成长而连贯的文本,这些系统不是可控的。比如说,我们不能直接要求ChatGPT生成一段目标人群是13岁儿童的文本。其次,ChatGPT生成的文本作为信息来源并不是100%可靠的。GPT的功能更像是一种辅助工具。就好比现有的驾驶辅助系统一样,开着自动驾驶功能,也得把着方向盘。而且,我们今天所熟知的自回归语言模型的寿命都非常短,五年算是一个周期,五年以后,过去的模型就没有人再会用了。而我们的研究重点,就应该集中在找到一种是这些模型可控的办法上。换句话说,我们要研究的AI,是能根据给定目标进行推理和计划的AI,并且得能保证其安全性和可靠性的标准是一致的。这种AI能感受到情绪。”要知道,人类情绪的很大一部分和目标的实现与否有关,也就是和某种形式的预期有关。而有了这样的可控模型,我们就能生成出长而连贯的文本。LeCun的想法是,未来设计出能混合来自不同工具的数据的增强版模型,比如计算器或者搜索引擎。像ChatGPT这样的模型只接受文本训练,因此ChatGPT对现实世界的认识并不完整。而想要在此基础上进一步发展,就需要学习一些和整个世界的感官知觉、世界结构有关的内容。而这些更复杂的内容并不是简单地通过阅读文本就能实现的,这才是未来几年的最大挑战之一。开源才是尽头对权力的渴望,是人类特有的。而AI并不会因为变得越来越强大就会具备这种渴望。只有人类这个物种才知道如何制定法律,保障个体的行为不会过多损害共同利益。OpenAI最初是一个开放的研究项目,现在已经关闭了。而OpenAI对其工作只字未提,这种情况的逆转在研究领域并不常见。问题在于训练一个语言模型很昂贵,要花费几千万欧元,所以初创企业负担不起。这也是微软与OpenAI合并的主要原因,需要集团共同的计算能力来改进其未来的模型。这也是为什么DeepMind和Google大脑最终还是合并了。LeCun表示,最终在市场方面,开发者会走向一个开放平台的共同生态。如果只有少部分公司控制着这类技术,就糟糕了。从历史上来看,不管是Facebook还是改完名的Meta,都在积极推动开放性的基础研究,比如LlaMa这个开源项目。90年代初期,SunMicrosystems和Microsoft大打出手,争夺操作服务器的权力。要记住,所有能一直站稳脚跟的互联网技术都是开源的。LeCun最后表示,目前,阻止这类开放的开源AI平台的关键,是法律上的问题。如果未来欧盟想要推动AI产业的结构化,那么这种类似的开源平台是必不可少的。...PC版:https://www.cnbeta.com.tw/articles/soft/1356621.htm手机版:https://m.cnbeta.com.tw/view/1356621.htm

封面图片

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解

Apple发布大模型论文:多模式LLM预培训的方法、分析和见解2024年3月14日,苹果公司发布了自家的大型多模态基础模型MM1,该模型拥有高达300亿参数,并采用混合专家(MoE)架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能,尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析,提出了几条关键的设计准则。他们发现,图像分辨率、视觉编码器损失和容量,以及预训练数据的类型对模型性能有显著影响。MM1模型的开发,标志着苹果在生成式人工智能领域的重要进展。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片HGXH200GPUNVIDIA今天宣布推出NVIDIAHGX™H200,为全球领先的AI计算平台带来强大动力。该平台基于NVIDIAHopper™架构,配备NVIDIAH200TensorCoreGPU和高级内存,可处理生成AI和高性能计算工作负载的海量数据。NVIDIAH200是首款提供HBM3e的GPU,HBM3e是更快、更大的内存,可加速生成式AI和大型语言模型,同时推进HPC工作负载的科学计算。借助HBM3e,NVIDIAH200以每秒4.8TB的速度提供141GB内存,与前一代NVIDIAA100相比,容量几乎翻倍,带宽增加2.4倍。全球领先的服务器制造商和云服务提供商采用H200的系统预计将于2024年第二季度开始发货。——

封面图片

本地LLM使用指南 0.2 | #指南

#指南LLMs,即大型语言模型(LargeLanguageModels),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。LLMs例如GPT、LLama、Mistral系列等,通过深度学习的技术架构,如Transformer,使得这些模型能够捕捉到文本之间深层次的关联和含义。模型首先在广泛的数据集上进行预训练,学习语言的一般特征和模式,然后可以针对特定的任务或领域进行微调,以提高其在特定应用中的表现。预训练阶段让LLMs掌握了大量的语言知识和世界知识,而微调阶段则使模型能够在特定任务上达到更高的性能。这种训练方法赋予了LLMs在处理各种语言任务时的灵活性和适应性,能够为用户提供准确、多样化的信息和服务。

封面图片

Yann LeCun 在推上点评LLM,说了下面几个点:

YannLeCun在推上点评LLM,说了下面几个点:1.自回归LLM可能很有用,尤其是对于写作和编码帮助2.大模型通常会产生幻觉或产生并非基于事实信息的内容3.大模型对物理世界的理解有限,这可以通过他们在某些谜题上的表现来观察得到4.大模型的计划能力相当原始5.大模型的工作记忆有限6.大模型对每个生成的token执行固定数量的计算步骤,从而限制了它们更具动态性的潜力7.大模型远非图灵完备,这意味着它们无法模拟通用计算机8.自回归生成过程呈指数发散且难以控制他前两天的talk:https://drive.google.com/file/d/1BU5bV3X5w65DwSMapKcsr0ZvrMRU_Nbi/view

封面图片

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型SoraOpenAI在该博客文章中表示,“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪,但在这个重要时刻,我们欢迎围绕这一问题展开激烈的讨论。”公司称,其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5,但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦(RomainHuet)上周在巴黎的一次演讲,OpenAI下一代模型可能将被命名为“GPT-Next”。不过,也有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称,新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后,OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算,OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过,《纽约时报》报道称,AI模型的训练可能需要数月甚至数年时间。训练完成后,AI公司通常还会再花几个月时间来测试该模型,并对其进行微调,之后才能供公众使用。这就意味着,OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新(SecurityUpdate)”中,OpenAI也表示,在(其下一代模型)发布前,公司将花更多时间评估新模型的功能,这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称,但外界第一时间猜测这一“前沿模型”就是GPT-5。此前,OpenAI的基础模型一直遵循着明确的命名顺序,即GPT后以递增数字的形式变化。不过,需要注意的是,本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示ChatGPTVoice时,OpenAI开发者体验主管罗曼·韦展示了一张幻灯片,揭示了未来几年人工智能模型的潜在增长趋势和命名,其中并没有GPT-5。 罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”,而“Today(今天)”就处于GPT-4时代和GPT-Next之间。这似乎意味着,OpenAI推出的下一代模型或将命名为GPT-Next,但有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。而且,罗曼·韦在演讲中也表示,在未来几个月或者说今年,人们将看到更多类型的OpenAI模型,而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称,OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4,以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称,按照过去的趋势,外界可以预期“下一代前沿模型”的反应会更加准确,因为它将接受更多数据的训练。模型训练的数据越多,该模型生成连贯、准确内容的能力就越强,从而也能拥有更好地性能。例如,有研究称GPT-3.5是在1750亿个参数上训练的,而GPT-4的训练参数则已经达到1万亿。报道称,如果OpenAI“下一代前沿模型”发布,我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型,从GPT-3.5到最新的GPT-4o,可以看到,随着模型的升级,产品的迭代已经让其变得更加智能,包括价格、响应速度、上下文长度等等。要知道,GPT-3.5只能输入和输出文本,而到GPT-4Turbo时,已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力,不仅能处理文本,还能创建图像内容,并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称,按照OpenAI基础模型这样的迭代趋势,“下一代前沿模型”或将拥有输出视频的能力。今年2月,OpenAI发布了“文生视频”模型Sora,这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时,更快地推进AI技术,同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称,预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平,这是一种能够理解、学习和执行人类可以执行的任何智力任务的AI形式。不过,专家们对AGI的可行性以及何时可能实现存在分歧。被誉为AI教父的GeoffreyHinton估计,可能需要20年才能发展出AGI。英伟达CEO黄仁勋则预测称,AI会在五年内通过人类测试,AGI将很快到来。...PC版:https://www.cnbeta.com.tw/articles/soft/1432739.htm手机版:https://m.cnbeta.com.tw/view/1432739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人