AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba 开创性的SSM - Transformer架构 52B 参数,12B 在生成时处于活动状态 16 位专家,生成过程中仅2个专家处于活跃状态 结合了Joint Attention和Mamba技术 支持 256K 上下文长度 单个 A100 80GB 最多可容纳 140K 上下文 与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。 背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model, SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。 而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。 ||

相关推荐

封面图片

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型 以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。 、

封面图片

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。 支持 100 万上下文的文本检索,可以分析超过 1 小时的视频,支持视频生成和图片生成。 模型介绍: 我们创建了一个包含多样视频和书籍的大型数据集,运用了 RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。 本文的主要贡献包括:(a) 构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的 Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。 (b) 提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。 (c) 实现了一种高度优化的训练方案,结合了 RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。 (d) 完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。 这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。 项目页面:

封面图片

Mamba相关文献资源列表 || #文献

Mamba相关文献资源列表 || #文献 Mamba 架构是深度学习领域的开创性框架,以其选择性状态空间和处理复杂数据结构的效率而闻名。它站在创新的最前沿,突破了序列建模、图像处理、语音识别等领域的可能性界限。

封面图片

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息:

Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息: - Llama2 的性能和参数 - 如何使用和限制条件 - Llama2 的模型架构 - Llama2 的训练方法论 下面是详细的信息 Llama2 的性能和参数 - Llama2有三个大小的版本分别是7B 13B和70B - Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。 - 预训练的Token为2 万亿,上下文长度为4096 - 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。 如何使用和限制条件 - 与第一次泄漏的版本不同,这次Meta开放了商业使用的权限。 - 现在可以直接在这个页面申请下载模型: - 日活大于7亿的产品需要单独申请商用权限 - 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。 Llama2 的模型架构 - Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。 - Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。 - 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。 - Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。 Llama2 的训练方法论 1. 预训练 • 使用公开可获得的在线数据进行预训练,总计2万亿个标记。 • 对数据进行了清洗,移除了一些包含大量个人信息的网站。 • 采用标准的Transformer架构,以及一些优化如RoPE等。 2. 监督微调 • 使用高质量的人工标注数据(约3万示例)进行监督微调。 • 优化回答标记,而不是提示标记。 3. 基于人类反馈的强化学习 • 收集人类偏好数据: letting人类比较并选择更好的回复。 • 训练奖励模型,给回复打分。 • 使用拒绝抽样和PPO算法进行迭代调优。

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

封面图片

ChatGPT交流群

ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的场景进行交流。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人