AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba开创性的SSM-Transformer架构52B参数,12B在生成时处于活动状态16位专家,生成过程中仅2个专家处于活跃状态结合了JointAttention和Mamba技术支持256K上下文长度单个A10080GB最多可容纳140K上下文与Mixtral8x7B相比,长上下文的吞吐量提高了3倍Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。背景知识Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(StructuredStateSpaceModel,SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。

相关推荐

封面图片

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21Labs推出Jamba:首个基于Mamba架构的生产级大模型以色列人工智能初创公司AI21Labs在近日宣布推出开源大语言模型Jamba,这是世界上首个基于Mamba架构的生产级人工智能模型。而目前大多数模型都基于Transformer架构。Jamba将Mamba的结构化状态空间模型(SSM)和传统Transformer架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba拥有高达256k上下文窗口,同时在单个80GBGPU上可容纳最多140K个tokens。其混合结构使Jamba的MoE层允许它在推理时仅使用52B可用参数中的12B参数。——、

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。#ai##llm#

谷歌发布了Gemini1.5模型,最主要的升级是支持了高达100万的上下文长度,秒杀了所有模型。Gemini1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。Gemini1.5Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token,但现在已经可以通过AIStudio和VertexAI向开发者和企业客户提供高达100万个Token的私人预览。1.5Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、包含超过30,000行代码的代码库或超过700,000个单词。Gemini1.5Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini1.0Pro,并且与1.0Ultra在同样的基准测试上表现相当。此外,Gemini1.5Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多:#context-window

封面图片

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟Gemini1.5Pro的能力差不多了。支持100万上下文的文本检索,可以分析超过1小时的视频,支持视频生成和图片生成。模型介绍:我们创建了一个包含多样视频和书籍的大型数据集,运用了RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。本文的主要贡献包括:(a)构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。(b)提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。(c)实现了一种高度优化的训练方案,结合了RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。(d)完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text,LWM-Text-Chat)和视频(LWM,LWM-Chat)。这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。项目页面:

封面图片

刚炮轰完GPT模式 杨立昆推出首个“世界模型”

刚炮轰完GPT模式杨立昆推出首个“世界模型”在上周举办的背景智源大会上,杨立昆在发表致辞演讲时斗志昂扬地驳斥了GPT的逻辑,说自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题,并给出了他认为的正确答案——世界模型。杨立昆去年提出了一种新的架构,旨在克服当今最先进的AI系统的关键限制。他的愿景是创造出能够学习世界如何运作的内部模型的机器,这样它们就可以更快地学习,计划如何完成复杂的任务,并随时适应不熟悉的情况。基于LeCun愿景关键组成部分,今日发布的图像联合嵌入预测架构(I-JEPA),通过创建外部世界的内部模型来学习,该模型比较图像的抽象表示(而不是比较像素本身)。I-JEPA在多个计算机视觉任务上提供了强大的性能,并且比其他广泛使用的计算机视觉模型的计算效率高得多。I-JEPA学习的表示也可以用于许多不同的应用程序,而不需要进行大量的微调。例如,Meta研究人员在72小时内使用16个A100GPU训练了一个拥有6.32亿个参数的视觉Transformer模型,并且它在ImageNet上实现了最先进的少样本分类性能,每个类只有12个标记示例,其他方法通常需要2到10倍以上的GPU时,并在使用相同数量的数据进行训练时获得更低的错误率。I-JEPA相关论文将在下周的CVPR2023上发表,训练代码和模型检查点的源代码已开放。论文地址:https://arxiv.org/pdf/2301.08243.pdf项目地址:https://github.com/facebookresearch/ijepaMetaAI博客文章全文编译如下:01通过自监督学习获取常识性知识Meta在I-JEPA(以及更普遍的联合嵌入预测架构(JEPA)模型)上的工作基于这样一个事实:人类通过被动地观察世界来学习大量关于世界的背景知识。据推测,这种常识性信息是实现智能行为的关键,例如样本高效获取新概念、基础和计划。AI研究人员试图设计学习算法,捕捉有关世界的常识背景知识,然后将其编码为算法以后可以访问的数字表示。为了提高效率,系统必须以自监督的方式学习这些表征——也就是说,直接从图像或声音等未标记的数据中学习,而不是从人工组装的标记数据集中学习。在较高的层次上,JEPA旨在通过相同输入的其他部分的表示来预测输入部分(如图像或文本)的表示。因为它不涉及将图像的多个视图/增强表示折叠到单个点,所以希望JEPA能够避免与另一种广泛使用的称为基于不变性的预训练的方法相关的偏差和问题。与此同时,通过在高抽象水平上预测表征,而不是直接预测像素值,Meta希望直接学习有用的表征,同时避免生成方法的局限性,这是大型语言模型的基础,最近已经产生了如此多令人兴奋的进展。相比之下,生成式架构通过删除或扭曲模型输入的部分来学习,例如删除照片的一部分或隐藏文本段落中的一些单词。然后,他们尝试预测损坏或丢失的像素或单词。然而,生成式AI方法的一个显著缺点是,模型试图填补每一点缺失的信息,即使世界本身是不可预测的。因此,生成式AI方法可能容易犯一些人们永远不会犯的错误,因为它们过于关注不相关的细节,而不是捕捉高层次的可预测概念,例如生成式AI模型很难准确地生成人手。(他们经常会添加额外的数字或犯其他明显的错误。)▲自监督学习的通用架构,其中系统学习捕捉其输入之间的关系。目标是为不兼容的输入分配一个高能量,并为兼容的输入分配一个低能量。(a)联合嵌入(不变)体系结构学习为兼容输入x、y输出相似嵌入,为不兼容输入输出不同嵌入。(b)生成式架构学习从兼容信号x直接重构信号y,使用以附加(可能是潜在的)变量z为条件的解码器网络来促进重构。(c)联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入,使用以附加(可能是潜在的)变量z为条件的预测网络来促进预测。02迈向具有广泛功能的联合嵌入预测架构的第一步I-JEPA背后的想法是用一种更接近于人们一般理解的抽象表示来预测缺失的信息。与在像素/标记空间进行预测的生成方法相比,I-JEPA使用抽象的预测目标,可以消除不必要的像素级细节,从而使模型学习更多的语义特征。引导I-JEPA生成语义表示的另一个核心设计选择是提出的多块屏蔽策略。具体来说,Meta研究人员证明了使用信息(空间分布)上下文预测包含语义信息(具有足够大的规模)的大型块的重要性。▲I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个视觉Transformer(ViT),它只处理可见的上下文补丁。预测器是一个狭窄的ViT,它接受上下文编码器的输出,并根据目标的位置标记(以颜色显示)来预测目标块在特定位置的表示。目标表示对应于目标编码器的输出,其权重通过上下文编码器权重的指数移动平均值在每次迭代中更新。I-JEPA中的预测器可以看作是一个原始的(受限制的)世界模型,它能够从部分可观察的环境中对静态图像中的空间不确定性进行建模。更重要的是,这个世界模型是语义的,因为它预测图像中未见区域的高级信息,而不是像素级的细节。▲说明了预测器是如何学习对世界的语义建模的。对于每个图像,蓝色框外的部分被编码并作为上下文提供给预测器。预测器输出它在蓝色框内的区域中所期望的表示。为了可视化预测,我们训练了一个生成模型,该模型生成由预测器输出表示的内容的草图,并且我们在蓝色框中显示了一个示例输出。显然,预测器能够识别应该填充哪些部分的语义(狗的头顶、鸟的腿、狼的腿、建筑物的另一边)。为了理解模型捕获的是什么,Meta训练了一个随机解码器,它将I-JEPA预测的表示映射回像素空间,当在蓝色框内进行预测时,它显示了模型的输出。这种定性评估表明,该模型正确地捕捉了位置的不确定性,并产生了具有正确姿势的高级物体部件(例如,狗的头,狼的前腿)。简而言之,I-JEPA能够学习对象部件的高级表示,而不会丢弃它们在图像中的局部位置信息。03更高的效率和强大的性能I-JEPA预训练的计算效率也很高。它不涉及与应用更多计算密集型数据增强来生成多个视图相关的任何开销。目标编码器只需处理图像的一个视图,并且上下文编码器只需处理上下文块。根据经验,Meta发现I-JEPA无需使用人工制作的视图增强即可学习强大的现成语义表示(参见下图)。它在ImageNet-1K线性探测和半监督评估上也优于像素和标记重建方法。▲ImageNet-1k上的线性评估性能作为GPU预训练小时数的函数。I-JEPA还与以前依赖于语义任务上手工制作的数据增强的预训练方法相竞争。与这些方法相比,I-JEPA在物体计数和深度预测等低级视觉任务上取得了更好的性能。通过使用更简单的模型和更少的刚性归纳偏差,I-JEPA适用于更广泛的任务集。▲低镜头分类精度:在ImageNet-1k上使用1%的标签进行半监督评估(每个类大约12个标记图像)。04结语:人工智能向人类水平迈进了一步I-JEPA展示了学习竞争性现成图像表示的架构的潜力,而不需要通过手工制作的图像转换编码额外的知识。推进JEPAs从更丰富的模式中学习更一般的世界模型将是特别有趣的,例如,使人们能够从短上下文中对视频中的未来事件做出长期的空间和时间预测,并根据音频或文本提示调节这些预测。Meta研究人员期待着将JEPA方法扩展到其他领域,如图像-文本配对数据和视频数据。未来,JEPA模型可能会在视频理解等任务上有令人兴奋的应用。这是应用和扩展自监督方法来学习世界一般模型的重要一步。...PC版:https://www.cnbeta.com.tw/articles/soft/1365233.htm手机版:https://m.cnbeta.com.tw/view/1365233.htm

封面图片

MiniMax 发布万亿 MoE 模型 abab 6.5

MiniMax发布万亿MoE模型abab6.5MiniMax正式推出abab6.5系列模型,包含两个模型:abab6.5和abab6.5s。其中abab6.5包含万亿参数,支持200ktokens的上下文长度;abab6.5s跟abab6.5使用了同样的训练技术和数据,但是更高效,支持200ktokens的上下文长度,可以1秒内处理近3万字的文本。

封面图片

生数科技发布中国首个 Sora 级视频模型 Vidu

生数科技发布中国首个Sora级视频模型ViduVidu由生数科技与清华大学联合推出,采用Diffusion与Transformer融合架构U-ViT,支持生成长度16秒、分辨率1080P的视频。该模型不仅能够模拟物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示,自今年2月Sora发布推出后,团队基于长期积累的经验,在短短两个月进一步突破长视频处理的关键技术。Vidu之所以能够达到这样的效果,是因为其技术路线正好与Sora高度一致。关注频道@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人