Yann LeCun 在推上点评LLM,说了下面几个点:

Yann LeCun 在推上点评LLM,说了下面几个点: 1.自回归 LLM 可能很有用,尤其是对于写作和编码帮助 2.大模型通常会产生幻觉或产生并非基于事实信息的内容 3.大模型对物理世界的理解有限,这可以通过他们在某些谜题上的表现来观察得到 4.大模型的计划能力相当原始 5.大模型的工作记忆有限 6.大模型对每个生成的token执行固定数量的计算步骤,从而限制了它们更具动态性的潜力 7.大模型远非图灵完备,这意味着它们无法模拟通用计算机 8.自回归生成过程呈指数发散且难以控制 他前两天的talk:

相关推荐

封面图片

LeCun哈佛演讲PPT放出:唱衰自回归LLM 指明下一代AI方向

LeCun哈佛演讲PPT放出:唱衰自回归LLM 指明下一代AI方向 LeCun 给出了一个模块化的认知架构,它可能构成回答这些问题的途径。该架构的核心是一个可预测的世界模型,它允许系统预测其行动的后果,并规划一系列行动来优化一组目标。目标包括保证系统可控性和安全性的护栏。世界模型采用了经过自监督学习训练的分层联合嵌入预测架构(H-JEPA)。LeCun 的演讲围绕多方面展开。开始部分,LeCun 介绍了目标驱动的人工智能。LeCun 指出与人类、动物相比,机器学习真的烂透了,一个青少年可以在大约 20 小时的练习中学会开车,小朋友可以在几分钟内学会清理餐桌。相比之下,为了可靠,当前的 ML 系统需要通过大量试验进行训练,以便在训练期间可以覆盖最意外的情况。尽管如此,最好的 ML 系统在现实世界任务(例如驾驶)中仍远未达到人类可靠性。我们距离达到人类水平的人工智能还差得很远,需要几年甚至几十年的时间。在实现这一目标之前,或许会先实现拥有猫类(或者狗类)级别智能的 AI。LeCun 强调 AI 系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。LeCun 再一次表达了对自回归 LLM 的不满(从 ChatGPT 到 Sora,OpenAI 都是采用的自回归生成式路线),虽然这种技术路线已经充斥了整个 AI 界,但存在事实错误、逻辑错误、不一致、推理有限、毒性等缺陷。此外,自回归 LLM 对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。在他看来,自回归 LLM 仅仅是世界模型的一种简化的特殊情况。为了实现世界模型,LeCun 给出的解决方案是联合嵌入预测架构(JEPA)。LeCun 花了大量篇幅介绍 JEPA 相关技术,最后他给出了简单的总结:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型 - 预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。在开源问题上,LeCun 认为开源 AI 不应该因为监管而消失,人工智能平台应该是开源的,否则,技术将被几家公司所掌控。不过为了安全起见,大家还是需要设置共享护栏目标。对于 AGI,LeCun 认为根本不存在 AGI,因为智能是高度多维的。虽然现在 AI 只在一些狭窄的领域超越了人类,毫无疑问的是,机器最终将超越人类智能。机器学习烂透了,距离人类水平的 AI 还差得远LeCun 指出 AI 系统应该朝着能够学习、记忆、推理、规划、有常识、可操纵且安全的方向发展。在他看来,与人类和动物相比,机器学习真的烂透了,LeCun 指出如下原因:监督学习(SL)需要大量标注样本;强化学习(RL)需要大量的试验;自监督学习(SSL)效果很好,但生成结果仅适用于文本和其他离散模式。与此不同的是,动物和人类可以很快地学习新任务、了解世界如何运作,并且他们(人类和动物)都有常识。随后,LeCun 表示人类需要的 AI 智能助理需要达到人类级别。但是,我们今天距离人类水平的人工智能还差得很远。举例来说,17 岁的少年可以通过 20 小时的训练学会驾驶(但 AI 仍然没有无限制的 L5 级自动驾驶),10 岁的孩子可以在几分钟内学会清理餐桌,但是现在的 AI 系统还远未达到。现阶段,莫拉维克悖论不断上演,对人类来说很容易的事情对人工智能来说很难,反之亦然。那么,我们想要达到高级机器智能(Advanced Machine Intelligence,AMI),需要做到如下:从感官输入中学习世界模型的 AI 系统;具有持久记忆的系统;具有规划行动的系统;可控和安全的系统;目标驱动的 AI 架构(LeCun 重点强调了这一条)。自回归 LLM 糟糕透了自监督学习已经被广泛用于理解和生成文本,图像,视频,3D 模型,语音,蛋白质等。大家熟悉的研究包括去噪 Auto-Encoder、BERT、RoBERTa。LeCun 接着介绍了生成式 AI 和自回归大语言模型。自回归生成架构如下所示:自回归大语言模型(AR-LLM)参数量从 1B 到 500B 不等、训练数据从 1 到 2 万亿 token。ChatGPT、Gemini 等大家熟悉的模型都是采用这种架构。LeCun 认为虽然这些模型表现惊人,但它们经常出现愚蠢的错误,比如事实错误、逻辑错误、不一致、推理有限、毒性等。此外,LLM 对潜在现实的了解有限,缺乏常识,没有记忆,而且无法规划答案。LeCun 进一步指出自回归 LLM 很糟糕,注定要失败。这些模型不可控、呈指数发散,并且这种缺陷很难修复。此外,自回归 LLM 没有规划,充其量就是大脑中的一小部分区域。虽然自回归 LLM 在协助写作、初稿生成、文本润色、编程等方面表现出色。但它们经常会出现幻觉,并且在推理、规划、数学等方面表现不佳,需要借助外部工具才能完成任务。用户很容易被 LLM 生成的答案所迷惑,此外自回归 LLM 也不知道世界是如何运转的。LeCun 认为当前 AI 技术(仍然)距离人类水平还很远,机器不会像动物和人类那样学习世界的运作方式。目前看来自回归 LLM 无法接近人类智力水平,尽管 AI 在某些狭窄的领域超过了人类。但毫无疑问的是,最终机器将在所有领域超越人类智慧。目标驱动的 AI在 LeCun 看来,目标驱动的 AI 即自主智能(autonomous intelligence)是一个很好的解决方案,其包括多个配置,一些模块可以即时配置,它们的具体功能由配置器(configurator)模块确定。配置器的作用是执行控制:给定要执行的任务,它预先配置针对当前任务的感知(perception)、世界模型(world model)、成本(cost)和参与者(actor)。关于这部分内容,大家可以参考:思考总结 10 年,图灵奖得主 Yann LeCun 指明下一代 AI 方向:自主机器智能目标驱动的 AI 中最复杂的部分是世界模型的设计。设计和训练世界模型关于这部分内容,我们先看 LeCun 给出的建议:放弃生成模型,支持联合嵌入架构;放弃概率模型,支持基于能量的模型(EBM);放弃对比方法,支持正则化方法;放弃强化学习,支持模型 - 预测控制;仅当规划无法产生结果时才使用强化学习来调整世界模型。LeCun 指出生成架构不适用于图像任务,未来几十年阻碍人工智能发展的真正障碍是为世界模型设计架构以及训练范式。训练世界模型是自监督学习(SSL)中的一个典型例子,其基本思想是模式补全。对未来输入(或暂时未观察到的输入)的预测是模式补全的一个特例。在这项工作中,世界模型旨在预测世界状态未来表征。联合嵌入预测架构(JEPA)LeCun 给出的解决方案是联合嵌入预测架构(JEPA),他介绍了联合嵌入世界模型。LeCun 进一步给出了生成模型和联合嵌入的对比:生成式:预测 y(包含所有细节);联合嵌入:预测 y 的抽象表示。LeCun 强调 JEPA 不是生成式的,因为它不能轻易地用于从 x 预测 y。它仅捕获 x 和 y 之间的依赖关系,而不显式生成 y 的预测。下图显示了一个通用 JEPA 和生成模型的对比。LeCun 认为动物大脑的运行可以看作是对现实世界的模拟,他称之为世界模型。他表示,婴儿在出生后的头几个月通过观察世界来学习基础知识。观察一个小球掉几百次,普通婴儿就算不了解物理,也会对重力的存在与运作有基础认知。LeCun 表示他已经建立了世界模型的早期版本,可以进行基本的物体识别,并正致力于训练它做出预测。基于能量的模型(通过能量函数获取依赖关系)演讲中还介绍了一种基于能量的模型(EBM)架构,如图所示,数据点是黑点,能量函数在数据点周围产生低能量值,并在远离高数据密度区域的地方产生较高能量,如能量等高线所示。训练 EBM 有两类方法... PC版: 手机版:

封面图片

:关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。

:关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。 LLM已成为自然语言处理和人工智能领域的突破性技术。这些模型能够执行各种与编码相关的任务,包括代码生成和代码推荐。因此,在软件测试中使用LLM预计会产生显着的改进。一方面,软件测试涉及诸如单元测试生成之类的任务,这些任务需要代码理解和生成。另一方面,LLM可以生成多样化的测试输入,以确保全面覆盖正在测试的软件。 此存储库对LLM在软件测试中的运用进行了全面回顾,收集了 102 篇相关论文,并从软件测试和法学硕士的角度进行了全面的分析。

封面图片

:超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。

:超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。 它不需要互联网连接或云服务支持。使用按钮触发录音,经过自动语音识别生成文本,然后由 TinyLlama-1.1B LLM 生成回复,并通过 eSpeak 语音合成器产生音频输出。

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。

:一个开源的零依赖库,可使用单一API调用30多种LLM,可以在单个响应中发送多个提示到多个LLM,并将结果返回。 llm.ts支持各种不同的LLM,包括文本生成、代码生成、知识库和对话模型等。llm.ts可以在Node、Deno和浏览器等任何地方使用,用户需要自己提供API密钥

封面图片

Meta首席AI科学家Yann LeCun在接受采访时强调,要达到与人类水平相当的AI还有很长的路要走。他表示,对于担心AI智能

Meta首席AI科学家Yann LeCun在接受采访时强调,要达到与人类水平相当的AI还有很长的路要走。他表示,对于担心AI智能超越人类并对其进行监管的担忧,就好比在1925年因飞行速度接近音速而要求对跨大西洋飞行进行监管。他认为,要达到人类水平的AI,我们还需要实现目前尚未知晓的科学突破。 因此,他认为担心AI超出人类控制并对其进行监管还为时过早。LeCun解释说,在其训练的特定领域中,生成式AI系统表现出智能,它们可以流利地使用语言,这让我们误认为它们具备智能,但实际上它们并不聪明。我们无法通过增加训练数据或投入更多计算能力来扩展它们的能力,以达到人类水平的智能。这种情况在短时间内不太可能发生,我们需要首先发现新的技术和架构。LeCun相信,即使不需要几十年,至少也需要数年的时间。 via 匿名 标签: #Meta #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人