AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型 以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。 、

相关推荐

封面图片

AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba 开创性的SSM - Transformer架构 52B 参数,12B 在生成时处于活动状态 16 位专家,生成过程中仅2个专家处于活跃状态 结合了Joint Attention和Mamba技术 支持 256K 上下文长度 单个 A100 80GB 最多可容纳 140K 上下文 与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。 背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model, SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。 而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。 ||

封面图片

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快 4.5 倍)。 这个架构可以高效训练一个包含数十亿参数的文本到视频模型。(arxiv 的 PDF 转 HTML 居然又好了) 项目地址:

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

封面图片

香港首个自主研发基础大模型初步完成

香港首个自主研发基础大模型初步完成 第二届香港国际创科展日前在香港会议展览中心开幕。香港科技大学首席副校长兼“香港生成式人工智能研发中心”(HKGAI)主任郭毅可在展会上接受记者采访时透露,由HKGAI训练、香港首个自主研发的基础大模型已初步完成。郭毅可表示,该大模型支持中文和英语,将为香港人工智能发展开辟新里程。他介绍,HKGAI在香港国际创科展上还首度向公众展示了10项自主开发的生成式人工智能服务和应用。这些人工智能研发成果包括,能实时让用户获得法律顾问、导游等各行各业信息的“专家咨询服务机器人”、将用户照片自动生成动画和合成图片的“跨越时空的相遇”应用、利用深度鉴伪技术实时分辨图片真伪的“AI火眼金睛”软件,以及辅助日常文书工作的“未来写作助手”机器人等。

封面图片

5000亿参数 传微软准备推出自研大模型MAI-1

5000亿参数 传微软准备推出自研大模型MAI-1 据悉,微软还未明确MAI-1模型的确切用途,具体取决于模型效果如何。报道称,微软可能会在本月晚些时候召开的Build开发者大会上预览这款新模型。微软对此拒绝发表评论。据报道,MAI-1规模将比微软之前训练的小型开源模型“大得多”,这意味着其也会更加昂贵。上个月微软推出了一款名为Phi-3-mini的小型人工智能模型,希望用有成本效益的产品吸引更多客户群体。微软向OpenAI投资了上百亿美元,并在旗下生产力软件中部署OpenAI的人工智能技术,从而在生成式人工智能领域的早期竞赛中取得了领先地位。据报道,为了提升该模型,微软已经配置了装备了英伟达GPU的大型服务器集群,并储备了大量数据。报道称,MAI-1将有大约5000亿个参数。相比之下,OpenAI的GPT-4据称有1万亿个参数,Phi-3 mini有38亿个参数。今年3月份,微软任命苏莱曼为新成立的消费级人工智能部门负责人,同时还聘用了Inflection的几名员工。报道补充说,新模型并不是源自Inflection,但可能用到了这家创业公司的训练数据。(辰辰) ... PC版: 手机版:

封面图片

微软推出其规模最小的人工智能模型 Phi-3

微软推出其规模最小的人工智能模型 Phi-3 微软推出了其轻量级人工智能模型 Phi-3 Mini 的下一个版本,这是该公司计划发布的三款小型模型中的第一款。Phi-3 Mini 可测量 38 亿个参数,其训练数据集比 GPT-4 等大型语言模型要小。现在可在 Azure、Hugging Face 和 Ollama 上使用。微软计划发布 Phi-3 Small (7B 参数) 和 Phi-3 Medium (14B 参数)。参数指的是模型能理解多少复杂指令。与大型人工智能模型相比,小型人工智能模型通常运行成本更低,并且在手机和笔记本电脑等个人设备上表现更好。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人