刚炮轰完GPT模式杨立昆推出首个“世界模型”

刚炮轰完GPT模式杨立昆推出首个“世界模型”在上周举办的背景智源大会上，杨立昆在发表致辞演讲时斗志昂扬地驳斥了GPT的逻辑，说自回归模型没有规划、推理的能力，单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题，并给出了他认为的正确答案——世界模型。杨立昆去年提出了一种新的架构，旨在克服当今最先进的AI系统的关键限制。他的愿景是创造出能够学习世界如何运作的内部模型的机器，这样它们就可以更快地学习，计划如何完成复杂的任务，并随时适应不熟悉的情况。基于LeCun愿景关键组成部分，今日发布的图像联合嵌入预测架构（I-JEPA），通过创建外部世界的内部模型来学习，该模型比较图像的抽象表示（而不是比较像素本身）。I-JEPA在多个计算机视觉任务上提供了强大的性能，并且比其他广泛使用的计算机视觉模型的计算效率高得多。I-JEPA学习的表示也可以用于许多不同的应用程序，而不需要进行大量的微调。例如，Meta研究人员在72小时内使用16个A100GPU训练了一个拥有6.32亿个参数的视觉Transformer模型，并且它在ImageNet上实现了最先进的少样本分类性能，每个类只有12个标记示例，其他方法通常需要2到10倍以上的GPU时，并在使用相同数量的数据进行训练时获得更低的错误率。I-JEPA相关论文将在下周的CVPR2023上发表，训练代码和模型检查点的源代码已开放。论文地址：https://arxiv.org/pdf/2301.08243.pdf项目地址：https://github.com/facebookresearch/ijepaMetaAI博客文章全文编译如下：01通过自监督学习获取常识性知识Meta在I-JEPA（以及更普遍的联合嵌入预测架构（JEPA）模型）上的工作基于这样一个事实：人类通过被动地观察世界来学习大量关于世界的背景知识。据推测，这种常识性信息是实现智能行为的关键，例如样本高效获取新概念、基础和计划。AI研究人员试图设计学习算法，捕捉有关世界的常识背景知识，然后将其编码为算法以后可以访问的数字表示。为了提高效率，系统必须以自监督的方式学习这些表征——也就是说，直接从图像或声音等未标记的数据中学习，而不是从人工组装的标记数据集中学习。在较高的层次上，JEPA旨在通过相同输入的其他部分的表示来预测输入部分（如图像或文本）的表示。因为它不涉及将图像的多个视图/增强表示折叠到单个点，所以希望JEPA能够避免与另一种广泛使用的称为基于不变性的预训练的方法相关的偏差和问题。与此同时，通过在高抽象水平上预测表征，而不是直接预测像素值，Meta希望直接学习有用的表征，同时避免生成方法的局限性，这是大型语言模型的基础，最近已经产生了如此多令人兴奋的进展。相比之下，生成式架构通过删除或扭曲模型输入的部分来学习，例如删除照片的一部分或隐藏文本段落中的一些单词。然后，他们尝试预测损坏或丢失的像素或单词。然而，生成式AI方法的一个显著缺点是，模型试图填补每一点缺失的信息，即使世界本身是不可预测的。因此，生成式AI方法可能容易犯一些人们永远不会犯的错误，因为它们过于关注不相关的细节，而不是捕捉高层次的可预测概念，例如生成式AI模型很难准确地生成人手。（他们经常会添加额外的数字或犯其他明显的错误。）▲自监督学习的通用架构，其中系统学习捕捉其输入之间的关系。目标是为不兼容的输入分配一个高能量，并为兼容的输入分配一个低能量。(a)联合嵌入（不变）体系结构学习为兼容输入x、y输出相似嵌入，为不兼容输入输出不同嵌入。(b)生成式架构学习从兼容信号x直接重构信号y，使用以附加（可能是潜在的）变量z为条件的解码器网络来促进重构。(c)联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入，使用以附加（可能是潜在的）变量z为条件的预测网络来促进预测。02迈向具有广泛功能的联合嵌入预测架构的第一步I-JEPA背后的想法是用一种更接近于人们一般理解的抽象表示来预测缺失的信息。与在像素/标记空间进行预测的生成方法相比，I-JEPA使用抽象的预测目标，可以消除不必要的像素级细节，从而使模型学习更多的语义特征。引导I-JEPA生成语义表示的另一个核心设计选择是提出的多块屏蔽策略。具体来说，Meta研究人员证明了使用信息（空间分布）上下文预测包含语义信息（具有足够大的规模）的大型块的重要性。▲I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个视觉Transformer（ViT），它只处理可见的上下文补丁。预测器是一个狭窄的ViT，它接受上下文编码器的输出，并根据目标的位置标记（以颜色显示）来预测目标块在特定位置的表示。目标表示对应于目标编码器的输出，其权重通过上下文编码器权重的指数移动平均值在每次迭代中更新。I-JEPA中的预测器可以看作是一个原始的（受限制的）世界模型，它能够从部分可观察的环境中对静态图像中的空间不确定性进行建模。更重要的是，这个世界模型是语义的，因为它预测图像中未见区域的高级信息，而不是像素级的细节。▲说明了预测器是如何学习对世界的语义建模的。对于每个图像，蓝色框外的部分被编码并作为上下文提供给预测器。预测器输出它在蓝色框内的区域中所期望的表示。为了可视化预测，我们训练了一个生成模型，该模型生成由预测器输出表示的内容的草图，并且我们在蓝色框中显示了一个示例输出。显然，预测器能够识别应该填充哪些部分的语义（狗的头顶、鸟的腿、狼的腿、建筑物的另一边）。为了理解模型捕获的是什么，Meta训练了一个随机解码器，它将I-JEPA预测的表示映射回像素空间，当在蓝色框内进行预测时，它显示了模型的输出。这种定性评估表明，该模型正确地捕捉了位置的不确定性，并产生了具有正确姿势的高级物体部件（例如，狗的头，狼的前腿）。简而言之，I-JEPA能够学习对象部件的高级表示，而不会丢弃它们在图像中的局部位置信息。03更高的效率和强大的性能I-JEPA预训练的计算效率也很高。它不涉及与应用更多计算密集型数据增强来生成多个视图相关的任何开销。目标编码器只需处理图像的一个视图，并且上下文编码器只需处理上下文块。根据经验，Meta发现I-JEPA无需使用人工制作的视图增强即可学习强大的现成语义表示（参见下图）。它在ImageNet-1K线性探测和半监督评估上也优于像素和标记重建方法。▲ImageNet-1k上的线性评估性能作为GPU预训练小时数的函数。I-JEPA还与以前依赖于语义任务上手工制作的数据增强的预训练方法相竞争。与这些方法相比，I-JEPA在物体计数和深度预测等低级视觉任务上取得了更好的性能。通过使用更简单的模型和更少的刚性归纳偏差，I-JEPA适用于更广泛的任务集。▲低镜头分类精度:在ImageNet-1k上使用1%的标签进行半监督评估(每个类大约12个标记图像)。04结语：人工智能向人类水平迈进了一步I-JEPA展示了学习竞争性现成图像表示的架构的潜力，而不需要通过手工制作的图像转换编码额外的知识。推进JEPAs从更丰富的模式中学习更一般的世界模型将是特别有趣的，例如，使人们能够从短上下文中对视频中的未来事件做出长期的空间和时间预测，并根据音频或文本提示调节这些预测。Meta研究人员期待着将JEPA方法扩展到其他领域，如图像-文本配对数据和视频数据。未来，JEPA模型可能会在视频理解等任务上有令人兴奋的应用。这是应用和扩展自监督方法来学习世界一般模型的重要一步。...PC版：https://www.cnbeta.com.tw/articles/soft/1365233.htm手机版：https://m.cnbeta.com.tw/view/1365233.htm

在Telegram中查看

相关推荐

Apple发布大模型论文：多模式LLM预培训的方法、分析和见解

Apple发布大模型论文：多模式LLM预培训的方法、分析和见解2024年3月14日，苹果公司发布了自家的大型多模态基础模型MM1，该模型拥有高达300亿参数，并采用混合专家（MoE）架构。超过半数的论文作者是华人。MM1模型在多模态任务上显示出强大的性能，尤其是在少样本学习和上下文预测方面。研究团队通过对不同架构组件和数据选择的深入分析，提出了几条关键的设计准则。他们发现，图像分辨率、视觉编码器损失和容量，以及预训练数据的类型对模型性能有显著影响。MM1模型的开发，标志着苹果在生成式人工智能领域的重要进展。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

百川智能宣布推出Baichuan2-192K 上下文窗口长超GPT-4约14倍

百川智能宣布推出Baichuan2-192K上下文窗口长超GPT-4约14倍今年9月25日，百川智能宣布已开放Baichuan2的API接口，进军企业级市场，开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户，目前百川智能已启动Baichuan2-192K的API内测，开放给法律、媒体、金融等行业的核心合作伙伴。上下文窗口长度是大模型的核心技术之一，通过更大的上下文窗口，模型能够结合更多上下文内容获得更丰富的语义信息，更好的捕捉上下文的相关性、消除歧义，进而更加准确、流畅的生成内容，提升模型能力。...PC版：https://www.cnbeta.com.tw/articles/soft/1393115.htm手机版：https://m.cnbeta.com.tw/view/1393115.htm

苹果推出300亿参数多模态大模型全面转向生成式AI

苹果推出300亿参数多模态大模型全面转向生成式AI就在近日，苹果公司研发团队发布了一篇论文《MM1：Methods，Analysis&InsightsfromMultimodalLLMPre-training》，首次公布了多模态大模型MM1，展示了该公司在AI方面的进展与实力。据悉，MM1最高参数量为300亿，该模型支持增强的上下文学习和多图像推理，在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验，找出影响大模型表现的关键因素。有趣的是，图像分辨率和图像标签数量比视觉语言连接器的影响更大，不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新，包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性，将大规模预训练与战略性数据选择相结合，以增强模型的学习能力。研发团队称，MM1不仅在预训练指标中是“最先进的”，并且在一系列已建立的多模态基准测试中，经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理，使得少数样本的思维链提示成为可能。然而，目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4，虽然MM1可能还不是绝对的领导者，但它仍然是苹果在AI方面的一次重大飞跃。与此同时，苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长，这是实现设备上高效处理的关键因素。收购完成后，DarwinAI的网站和社交媒体账户已悄然下线。据悉，数十名DarwinAI员工已经加入了苹果的AI部门，作为交易的一部分，滑铁卢大学的AI研究员AlexanderWong已加入苹果，担任AI团队的总监。...PC版：https://www.cnbeta.com.tw/articles/soft/1424021.htm手机版：https://m.cnbeta.com.tw/view/1424021.htm

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格

OpenAI正在升级其文本生成模型GPT-3.5-turbo和GPT-4并降低价格例如，函数调用可以帮助创建聊天机器人，通过调用外部工具回答问题，将自然语言转换为数据库查询，并从文本中提取结构化数据。“这些模型已经过微调，可以检测何时需要调用函数……并使用符合函数签名的JSON进行响应，”OpenAI在介绍中写道。“函数调用允许开发人员更可靠地从模型中获取结构化数据。”除了函数调用之外，OpenAI还引入了一种具有极大扩展上下文窗口的GPT-3.5-turbo。上下文窗口以标记或原始文本位衡量，指的是模型在生成任何其他文本之前考虑的文本。具有小上下文窗口的模型往往会“忘记”即使是最近的对话内容，导致他们偏离主题。新的GPT-3.5-turbo提供四倍于普通GPT-3.5-turbo的上下文长度（16000个令牌），价格是原来的两倍——每1000个输入令牌（即输入模型的令牌）0.003美元，每1000个输出令牌0.004美元（模型生成的标记）。OpenAI表示，它一次可以摄取大约20页的文本——明显低于AI初创公司Anthropic的旗舰模型可以处理的数百页文本。（OpenAI正在测试具有32000个令牌上下文窗口的GPT-4版本，但发布范围有限。）从好的方面来说，OpenAI表示它正在将GPT-3.5-turbo（原始版本，而不是具有扩展上下文窗口的版本）的价格降低25%。开发人员现在可以以每1000个输入令牌0.0015美元和每1000个输出令牌0.002美元的价格使用该模型，这相当于每美元大约700页。text-embedding-ada-002的定价也有所降低，这是OpenAI更流行的文本嵌入模型之一。文本嵌入衡量文本字符串的相关性，通常用于搜索（结果按与查询字符串的相关性排序）和推荐（推荐具有相关文本字符串的项目）。Text-embedding-ada-002现在每1000个令牌的价格为0.0001美元，比之前的价格降低了75%。OpenAI表示，减少是通过提高其系统效率实现的——毫无疑问，这是这家初创公司关注的一个关键领域，因为它在研发和基础设施上花费了数亿美元。OpenAI已经表示，在3月初发布GPT-4之后，对现有模型的增量更新是当下主要工作，而不是研发大规模的从头开始的新模型。在最近的一次会议上，首席执行官山姆·奥特曼重申OpenAI尚未开始培训GPT-4的继任者，这表明该公司在开始该模型之前“还有很多工作要做”。了解更多：https://openai.com/blog/function-calling-and-other-api-updates...PC版：https://www.cnbeta.com.tw/articles/soft/1365217.htm手机版：https://m.cnbeta.com.tw/view/1365217.htm

StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像，并且可以扩展到视频生成，为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响，并且鼓励用户负责任地使用该工具。使用场景示例：使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频，展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色：一致自注意力机制：生成长序列中的角色一致图像。运动预测器：在压缩的图像语义空间中预测运动，实现更大的运动预测。漫画生成：利用一致自注意力机制生成的图像，无缝过渡创建视频。图像到视频的生成：提供用户输入的条件图像序列来生成视频。两阶段长视频生成：结合两个部分生成非常长且高质量的AIGC视频。条件图像使用：图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成：提供快速的视频生成结果。

GPT-4劲敌 Google进入高能+高产模式

GPT-4劲敌Google进入高能+高产模式一、极致性能背后的模型架构图源：X平台Alphabet与Google公司首席科学家Jeff Dean推文“巧合”的是，Open AI在Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹，颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域，Sora 又是 OpenAI 首次发布文生视频模型，所以无奈被抢了头条。图源：微博评论Gemini 1.5 Pro建立在谷歌对Transformer和MoE架构的领先研究之上。传统Transformer充当一个大型神经网络，而 MoE（Mixture of Experts 混合专家模型）模型则分为更小的“专家”神经网络。在这一结构之下，通过将模型参数划分为多个组别而实现的计算的稀疏化，即每次执行推理任务时，根据对输入类型的判断，MoE模型会通过门控网络选择性地激活神经网络中最契合指令的专家参与计算。这种专业化、模块化的划分可以在提升预训练计算效率的同时提升大模型处理复杂任务的性能，更快地学习复杂任务的同时保证准确性。与稠密模型相比，MoE模型的预训练速度更快；使用MoE 层代替transformer 中的前馈网络（FFN）层。因而对的采用可以弥补Transformer架构运算效率的问题。在Switch-Transformer、M4等领域，Google 一直是深度学习 MoE 技术的早期采用者。目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。有消息称，GPT-4也采用了由 8 个专家模型组成的集成系统。2023年12月8日Mistral AI 发布的 Mixtral 8x7B 同样采用了这种架构。就国内的大模型而言，只有Minimax采用了MoE架构。二、扩容的上下文窗口意味着什么？虽然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本，但初代便表现不俗。扩大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮点。多模态大模型卷到今日，上下文窗口容量已然成为提升其理解能力的关键掣肘。此前的SOTA模型将上下文窗口容量卷到了20万token。而谷歌的Gemini 1.5 Pro直接将上下文窗口容量提到了100万token（极限为1000万token），远远超出了 Gemini 1.0 最初的 32,000 个 token，创下了最长上下文窗口的纪录。对于文本处理，Gemini 1.5 Pro在处理高达530,000 token的文本时，能够实现100%的检索完整性，在处理1,000,000 token的文本时达到99.7%的检索完整性。甚至在处理高达10,000,000 token的文本时，检索准确性仍然高达99.2%。在音频处理方面，Gemini 1.5 Pro能够在大约11小时的音频资料中，100%成功检索到各种隐藏的音频片段。在视频处理方面，Gemini 1.5 Pro能够在大约3小时的视频内容中，100%成功检索到各种隐藏的视觉元素。图源：Gemini 1.5 Pro官方测试数据Gemini 1.5 Pro大大超过Gemini 1.0 Pro，在27项基准（共31项）上表现更好，特别是在数学、科学和推理（+28.9%），多语言（+22.3%），视频理解（+11.2%）和代码（+8.9%）等领域。即使是对比Gemini 系列的高端产品Gemini 1.0 Ultra， Gemini 1.5 Pro也在超过一半的基准（16/31）上表现更好，特别是在文本基准（10/13）和许多视觉基准（6/13）上。在 NIAH测试中，Gemini 1.5 Pro能够在长达100万token的文本块中，以99%的准确率找出隐藏有特定信息的文本片段。图源：Gemini 1.5 Pro官方测试数据这个上下文长度使Gemini 1.5 Pro可以自如地处理22小时的录音、超过十倍的完整的1440页的书（587,287字）“战争与和平”，以及四万多行代码、三小时的视频。三、机器脑有多好使除高效架构和强上下文处理能力之外，Gemini 1.5 Pro的优秀品质还在于“情境学习”技能，它可以根据长提示，从以前从未见过的信息中学习新技能，而不需要额外的微调。强学习能力、信息检索与数据分析能力使得在知识海洋中“海底捞针”由想象映照进了现实。根据官方发布的测试报告，当给定卡拉曼语（一种全球使用人数不足 200 人的语言）的语法手册时（500页的语言文献，一本词典和400个平行句子），Gemini 1.5 Pro模型可以学习将英语翻译成卡拉曼语，其水平与学习相同内容的人相似。图源：Gemini 1.5 Pro官方演示样本当被一个45分钟的Buster基顿电影“小神探夏洛克”（1924年）（2674帧，1FPS，684ktoken）提示时，Gemini 1.5 Pro可以从其中的特定帧中检索和提取文本信息，并提供相应的时间戳。此外还可以从一张手绘素描中识别电影中的一个场景。与侧重于衡量模型检索能力的特定事实或细节的任务不同，这些问题通常需要了解跨越大量文本的信息片段之间的关系。图源：Gemini 1.5 Pro官方演示样本Gemini 1.5 Pro在处理长达超过100,000行的代码时，还具备极强的问题解决能力。面对庞大的代码量，它能够深入分析各个示例，提出实用的修改建议，还能详细解释代码的条例框架。给出了整个746,152个令牌JAX代码库，Gemini 1.5 Pro可以识别核心自动微分方法的具体位置。开发者可以直接上传新的代码库，利用这个模型快速熟悉、理解代码结构。图源：Gemini 1.5 Pro官方演示样本正如NVIDIA高级科学家Jim Fan所言，Gemini 1.5 Pro意味着LLM能力的大幅跃升，这对于做个体户的小公司而言可谓一骑绝尘。在人机协同的探索过程中，单一的文本交互很难满足多场景多样态的内容生产诉求。多模态的信息处理与生成能力显然是技术变革的发力点。纽约大学计算机助理教授谢赛宁说，人才第一，数据第二，算力第三，其他都没有什么是不可替代的。Gemini 1.5 Pro是谷歌与巅峰对决的又一利器，或许AGI时代正加快到来。...PC版：https://www.cnbeta.com.tw/articles/soft/1419771.htm手机版：https://m.cnbeta.com.tw/view/1419771.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人