LeCun哈佛演讲PPT放出:唱衰自回归LLM 指明下一代AI方向

LeCun哈佛演讲PPT放出:唱衰自回归LLM 指明下一代AI方向 LeCun 给出了一个模块化的认知架构,它可能构成回答这些问题的途径。该架构的核心是一个可预测的世界模型,它允许系统预测其行动的后果,并规划一系列行动来优化一组目标。目标包括保证系统可控性和安全性的护栏。世界模型采用了经过自监督学习训练的分层联合嵌入预测架构(H-JEPA)。LeCun 的演讲围绕多方面展开。开始部分,LeCun 介绍了目标驱动的人工智能。LeCun 指出与人类、动物相比,机器学习真的烂透了,一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在几分钟内学会清理餐桌。相比之下,为了可靠,当前的 ML 系统需要通过大量试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,最好的 ML 系统在现实世界任务(例如驾驶)中仍远未达到人类可靠性。我们距离达到人类水平的人工智能还差得很远,需要几年甚至几十年的时间。在实现这一目标之前,或许会先实现拥有猫类(或者狗类)级别智能的 AI。LeCun 强调 AI 系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。LeCun 再一次表达了对自回归 LLM 的不满(从 ChatGPT 到 Sora,OpenAI 都是采用的自回归生成式路线),虽然这种技术路线已经充斥了整个 AI 界,但存在事实错误、逻辑错误、不一致、推理有限、毒性等缺陷。此外,自回归 LLM 对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。在他看来,自回归 LLM 仅仅是世界模型的一种简化的特殊情况。为了实现世界模型,LeCun 给出的解决方案是联合嵌入预测架构(JEPA)。LeCun 花了大量篇幅介绍 JEPA 相关技术,最后他给出了简单的总结:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型 - 预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。在开源问题上,LeCun 认为开源 AI 不应该因为监管而消失,人工智能平台应该是开源的,否则,技术将被几家公司所掌控。不过为了安全起见,大家还是需要设置共享护栏目标。对于 AGI,LeCun 认为根本不存在 AGI,因为智能是高度多维的。虽然现在 AI 只在一些狭窄的领域超越了人类,毫无疑问的是,机器最终将超越人类智能。机器学习烂透了,距离人类水平的 AI 还差得远LeCun 指出 AI 系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。在他看来,与人类和动物相比,机器学习真的烂透了,LeCun 指出如下原因:监督学习(SL)需要大量标注样本;强化学习(RL)需要大量的试验;自监督学习(SSL)效果很好,但生成结果仅适用于文本和其他离散模式。与此不同的是,动物和人类可以很快地学习新任务、了解世界如何运作,并且他们(人类和动物)都有常识。随后,LeCun 表示人类需要的 AI 智能助理需要达到人类级别。但是,我们今天距离人类水平的人工智能还差得很远。举例来说,17 岁的少年可以通过 20 小时的训练学会驾驶(但 AI 仍然没有无限制的 L5 级自动驾驶),10 岁的孩子可以在几分钟内学会清理餐桌,但是现在的 AI 系统还远未达到。现阶段,莫拉维克悖论不断上演,对人类来说很容易的事情对人工智能来说很难,反之亦然。那么,我们想要达到高级机器智能(Advanced Machine Intelligence,AMI),需要做到如下:从感官输入中学习世界模型的 AI 系统;具有持久记忆的系统;具有规划行动的系统;可控和安全的系统;目标驱动的 AI 架构(LeCun 重点强调了这一条)。自回归 LLM 糟糕透了自监督学习已经被广泛用于理解和生成文本,图像,视频,3D 模型,语音,蛋白质等。大家熟悉的研究包括去噪 Auto-Encoder、BERT、RoBERTa。LeCun 接着介绍了生成式 AI 和自回归大语言模型。自回归生成架构如下所示:自回归大语言模型(AR-LLM)参数量从 1B 到 500B 不等、训练数据从 1 到 2 万亿 token。ChatGPT、Gemini 等大家熟悉的模型都是采用这种架构。LeCun 认为虽然这些模型表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,LLM 对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。LeCun 进一步指出自回归 LLM 很糟糕,注定要失败。这些模型不可控、呈指数发散,并且这种缺陷很难修复。此外,自回归 LLM 没有规划,充其量就是大脑中的一小部分区域。虽然自回归 LLM 在协助写作、初稿生成、文本润色、编程等方面表现出色。但它们经常会出现幻觉,并且在推理、规划、数学等方面表现不佳,需要借助外部工具才能完成任务。用户很容易被 LLM 生成的答案所迷惑,此外自回归 LLM 也不知道世界是如何运转的。LeCun 认为当前 AI 技术(仍然)距离人类水平还很远,机器不会像动物和人类那样学习世界的运作方式。目前看来自回归 LLM 无法接近人类智力水平,尽管 AI 在某些狭窄的领域超过了人类。但毫无疑问的是,最终机器将在所有领域超越人类智慧。目标驱动的 AI在 LeCun 看来,目标驱动的 AI 即自主智能(autonomous intelligence)是一个很好的解决方案,其包括多个配置,一些模块可以即时配置,它们的具体功能由配置器(configurator)模块确定。配置器的作用是执行控制:给定要执行的任务,它预先配置针对当前任务的感知(perception)、世界模型(world model)、成本(cost)和参与者(actor)。关于这部分内容,大家可以参考:思考总结 10 年,图灵奖得主 Yann LeCun 指明下一代 AI 方向:自主机器智能目标驱动的 AI 中最复杂的部分是世界模型的设计。设计和训练世界模型关于这部分内容,我们先看 LeCun 给出的建议:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型 - 预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。LeCun 指出生成架构不适用于图像任务,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。在这项工作中,世界模型旨在预测世界状态未来表征。联合嵌入预测架构(JEPA)LeCun 给出的解决方案是联合嵌入预测架构(JEPA),他介绍了联合嵌入世界模型。LeCun 进一步给出了生成模型和联合嵌入的对比:生成式:预测 y(包含所有细节);联合嵌入:预测 y 的抽象表示。LeCun 强调 JEPA 不是生成式的,因为它不能轻易地用于从 x 预测 y。它仅捕获 x 和 y 之间的依赖关系,而不显式生成 y 的预测。下图显示了一个通用 JEPA 和生成模型的对比。LeCun 认为动物大脑的运行可以看作是对现实世界的模拟,他称之为世界模型。他表示,婴儿在出生后的头几个月通过观察世界来学习基础知识。观察一个小球掉几百次,普通婴儿就算不了解物理,也会对重力的存在与运作有基础认知。LeCun 表示他已经建立了世界模型的早期版本,可以进行基本的物体识别,并正致力于训练它做出预测。基于能量的模型(通过能量函数获取依赖关系)演讲中还介绍了一种基于能量的模型(EBM)架构,如图所示,数据点是黑点,能量函数在数据点周围产生低能量值,并在远离高数据密度区域的地方产生较高能量,如能量等高线所示。训练 EBM 有两类方法... PC版: 手机版:

相关推荐

封面图片

Yann LeCun 在推上点评LLM,说了下面几个点:

Yann LeCun 在推上点评LLM,说了下面几个点: 1.自回归 LLM 可能很有用,尤其是对于写作和编码帮助 2.大模型通常会产生幻觉或产生并非基于事实信息的内容 3.大模型对物理世界的理解有限,这可以通过他们在某些谜题上的表现来观察得到 4.大模型的计划能力相当原始 5.大模型的工作记忆有限 6.大模型对每个生成的token执行固定数量的计算步骤,从而限制了它们更具动态性的潜力 7.大模型远非图灵完备,这意味着它们无法模拟通用计算机 8.自回归生成过程呈指数发散且难以控制 他前两天的talk:

封面图片

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界 最近,亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文,从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址:“没有世界模型,就没有规划能力”。虽然如此,只凭一篇论文又怎么能平息LLM界的重大分歧?支持语言模型的网友很快就在评论区下面反驳LeCun网友:目前的LLM能达到约60%的准确率(不专门为任务进行训练),这至少是某种“世界模型”了,而且每一代LLM都在提升。LeCun:世界模型不会是LLM。网友:也许吧。但这并不意味着LLM内部不存在某种(不准确的)世界模型。不过,在Hinton看来,AI已经不再是仅仅依赖于过去,基于统计模型做下一个token的预测,而是展现出更高的“理解”能力。然而,大模型想要成为世界终极模拟器,还很远。LLM是“世界模拟器”吗?模拟世界,对于AI学习和理解世界至关重要。以往,多数情况下,可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周,甚至数月的时间做大量的工作。而现在,大模型提供了一种替代的方法,即通过预训练数据集中大量知识,获得对世界的深刻理解。但是,它们准备好,直接用作模拟器了吗?对此,这项研究的团队在“文本游戏”这一领域,来检验这一问题。一般来说,在世界建模和模拟的背景下,应用LLM有两种方式:一是神经符号化方法;二是直接模拟。论文中,作者们首次对LLM直接模拟虚拟环境的能力,进行了量化分析。他们利用JSON模式的结构化表示作为脚手架(scaffold),不仅提高了模拟精度,还可以直接探查LLM在不同领域的能力。结果发现,GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”(state transition)。甚至还包括,涉及算术、常识,或科学推理的状态转移。在各种不同条件下,对于模拟一些复杂环境变化时,GPT-4的准确率不及59.9%。同时也表明,LLM还不足以可靠地充当世界模拟器。那么,研究人员具体如何实现的?研究方法在文本环境中,智能体通过自然语言,完成特定的目标。他们将文本的虚拟环境形式化,建模为一种马尔可夫决策过程(POMDP),共有7个元组:S, A, T , O, R, C, D。其中,S表示状态空间,A表示行动空间,T:S×A→S表示状态转移函数,O表示观测函数,R:S×A→R表示奖励函数,C表示用自然语言描述目标和动作语义的“上下文信息”,D:S×A→{0,1}表示二元指示函数,用0或1标记智能体是否完成任务。其中,上下文C为模型提供了除环境外的额外信息,比如行动规则、物体属性、打分规则和状态转换规则等等。然后,研究人员还提出了一个预测任务,称为LLM-as-a-Simulator(LLM-Sim),作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器,将给定的上下文、状态和动作(即)映射到后续的状态、奖励和游戏完成状态(即)。每个状态转移用如下的九元组表示:实际上,整个状态转换模拟器F,应该考虑两种类型的状态转移:行为驱动和环境驱动的转移。对于图1中的示例,行为驱动的状态转移是在执行“打开水槽”动作后,水槽被打开。而环境驱动的转移是,当水槽打开时,水将填满槽中的杯子。此外,LLM的预测模式也分为两种:预测下一步的完整状态,或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力,研究人员进一步将模拟器函数F分解为三种类型:评估结果建模了LLM的决策过程后,作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库,其中有32个人类编写的文字游戏。留出一个游戏作为gold label后,测试集总共涉及31个游戏场景,7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测,给出下一步时的物体属性、任务进展等信息。规则方面,研究人员也提出了三种设定:由游戏作者撰写、由LLM自动生成,或者根本不提供规则。设定好虚拟环境和任务规则后,作者运行GPT-4进行预测得到了如下结果。为了严谨起见,作者根据状态转移前后预测结果是否变化,分成static和dynamic两类分开统计。如果前后两个状态中,结果并没有发生变化,LLM也会更容易预测。不出意料,static一栏的准确率基本都高于dynamic。对于“静态”转移,模型在预测状态差时表现更好。“动态转移”则相反,在完整状态预测中得分更高。作者猜测,这可能是由于预测状态差时需要减少潜在的格式错误,这会为任务输出带来额外的复杂性。还可以看到,预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏,前者预测最高分有77.1,而后者最高只有49.7。此外,游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则,LLM预测的性能会有明显的大幅下降,但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下,规则制定对游戏进度预测的影响更加明显。相比人类规则,LLM生成规则时,GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解?以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比,结果如何呢?为此,4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右,远高于GPT-4在50%附近徘徊的成绩,这显示了规划能力上的重大差距。对于规划任务中的单步预测模型,每一步的模拟误差都会累积并向后传播,单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了,它并不能成为可靠的“文本世界模拟器”。此外,人类准确率的波动幅度基本不大,说明任务设定比较简单、直接,适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会,可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此,论文作者将LLM的预测结果拆开仔细分析,发现在二元布尔值属性上(is开头的属性),模型通常可以做得很好。预测表现比较糟糕的,通常是一些非平凡属性,比如需要算术运算的temprature(温度)、需要常识的current_aperture(当前照相机光圈),或者需要科学知识的on(灯泡是否打开)。相比之前的基准测试,这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外,这也能反映出模型一些行为的“偏执”之处。在进行完整预测时,它通常过于关注动作驱动的状态转移而忽略了环境驱动,出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到,这些错误是本可以避免的。作者提出,这篇文章的局限性之一是只使用了GPT模型进行测试,也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出,为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料:... PC版: 手机版:

封面图片

Gamma:下一代的 PPT 制作方式。

Gamma:下一代的 PPT 制作方式。 文本转 PPT,这里用 ChatGPT 生成了一段关于 ChatGPT 介绍的大纲和详细内容的 Markdown,然后将这段内容交给 Gamma,看它能做出什么样的效果。 Gamma 的基本功能是完全免费的, 而使用 AI 功能则需要相应的积分(credits),注册赠送 400 credits。 或者直接开通 Pro 账户(16美元/每月)(还挺贵)。 用我的邀请链接注册也会双方各赠送 200 credits:

封面图片

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片 HGX H200 GPU NVIDIA 今天宣布推出 NVIDIA HGX™ H200,为全球领先的 AI 计算平台带来强大动力。该平台基于 NVIDIA Hopper™ 架构,配备 NVIDIA H200 Tensor Core GPU 和高级内存,可处理生成 AI 和高性能计算工作负载的海量数据。 NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的内存,可加速生成式 AI 和大型语言模型,同时推进 HPC 工作负载的科学计算。借助 HBM3e,NVIDIA H200 以每秒 4.8 TB 的速度提供 141GB 内存,与前一代 NVIDIA A100 相比,容量几乎翻倍,带宽增加 2.4 倍。 全球领先的服务器制造商和云服务提供商采用 H200 的系统预计将于 2024 年第二季度开始发货。

封面图片

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora OpenAI在该博客文章中表示,“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪,但在这个重要时刻,我们欢迎围绕这一问题展开激烈的讨论。”公司称,其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5,但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦(Romain Huet)上周在巴黎的一次演讲,OpenAI下一代模型可能将被命名为“GPT-Next”。不过,也有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称,新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后,OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算,OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过,《纽约时报》报道称,AI模型的训练可能需要数月甚至数年时间。训练完成后,AI公司通常还会再花几个月时间来测试该模型,并对其进行微调,之后才能供公众使用。这就意味着,OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新(Security Update)”中,OpenAI也表示,在(其下一代模型)发布前,公司将花更多时间评估新模型的功能,这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称,但外界第一时间猜测这一“前沿模型”就是GPT-5。此前,OpenAI的基础模型一直遵循着明确的命名顺序,即GPT后以递增数字的形式变化。不过,需要注意的是,本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示 ChatGPT Voice时,OpenAI开发者体验主管罗曼·韦展示了一张幻灯片,揭示了未来几年人工智能模型的潜在增长趋势和命名,其中并没有GPT-5。 罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”,而“Today(今天)”就处于GPT-4时代和GPT-Next之间。这似乎意味着,OpenAI推出的下一代模型或将命名为GPT-Next,但有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。而且,罗曼·韦在演讲中也表示,在未来几个月或者说今年,人们将看到更多类型的OpenAI模型,而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称,OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4,以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称,按照过去的趋势,外界可以预期“下一代前沿模型”的反应会更加准确,因为它将接受更多数据的训练。模型训练的数据越多,该模型生成连贯、准确内容的能力就越强,从而也能拥有更好地性能。例如,有研究称GPT-3.5是在1750亿个参数上训练的,而GPT-4的训练参数则已经达到1万亿。报道称,如果OpenAI“下一代前沿模型”发布,我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型,从GPT-3.5到最新的GPT-4o,可以看到,随着模型的升级,产品的迭代已经让其变得更加智能,包括价格、响应速度、上下文长度等等。要知道,GPT-3.5只能输入和输出文本,而到GPT-4 Turbo时,已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力,不仅能处理文本,还能创建图像内容,并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称,按照OpenAI基础模型这样的迭代趋势,“下一代前沿模型”或将拥有输出视频的能力。今年2月,OpenAI发布了“文生视频”模型Sora,这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时,更快地推进AI技术,同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称,预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平,这是一种能够理解、学习和执行人类可以执行的任何智力任务的 AI 形式。不过,专家们对 AGI 的可行性以及何时可能实现存在分歧。被誉为 AI 教父的 Geoffrey Hinton 估计,可能需要 20 年才能发展出 AGI。英伟达CEO黄仁勋则预测称,AI会在五年内通过人类测试,AGI将很快到来。 ... PC版: 手机版:

封面图片

三星成立AGI计算实验室 打造下一代AI芯片

三星成立AGI计算实验室 打造下一代AI芯片 三星电子总裁兼CEO、设备解决方案部负责人Kyung Kye-Hyun表示,其目标是发布新的“芯片设计,一种迭代模型,能够以极低的功耗和成本提供更强大的性能并支持越来越大的模型”。此举发生在硅谷重量级人物,从OpenAI CEO山姆·阿尔特曼到Meta平台马克·扎克伯格,就人工智能的未来轨迹展开辩论之际。许多人开始讨论AGI的潜力和危险。AGI本质上本质上是指行为、学习和进化都像人类一样的人工智能,甚至是超越人类的人工智能。山姆·阿尔特曼和马克·扎克伯格最近几个月访问了韩国首尔,与三星和其他韩国公司讨论人工智能合作。三星正试图在为人工智能提供芯片的业务中赶上竞争对手,后者此前在为英伟达芯片使用的新型先进存储半导体领域占得先机。Kyung Kye-Hyun还表示,谷歌前高级软件工程师Dong Hyuk Woo将负责三星在美国和韩国的AGI计算实验室。该公告发布恰逢英伟达宣布备受瞩目的Blackwell架构新芯片B200。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人