AI21 Labs 推出 Jamba：首个基于 Mamba 架构的生产级大模型

AI21 Labs 推出 Jamba：首个基于 Mamba 架构的生产级大模型以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba，这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合，提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口，同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。、

在Telegram中查看

相关推荐

AI21发布世界首个Mamba的生产级模型：Jamba

AI21发布世界首个Mamba的生产级模型：Jamba 开创性的SSM - Transformer架构 52B 参数，12B 在生成时处于活动状态 16 位专家，生成过程中仅2个专家处于活跃状态结合了Joint Attention和Mamba技术支持 256K 上下文长度单个 A100 80GB 最多可容纳 140K 上下文与 Mixtral 8x7B 相比，长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间（SSM）技术和传统的Transformer架构的元素，弥补了纯SSM模型固有的局限。背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型（Structured State Space Model, SSM），这是一种用于捕捉和处理数据随时间变化的模型，特别适合处理序列数据，如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据，但它在处理复杂模式和依赖时可能不如其他模型强大。而"Transformer"架构是近年来人工智能领域最为成功的模型之一，特别是在自然语言处理（NLP）任务中。它能够非常有效地处理和理解语言数据，捕捉长距离的依赖关系，但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来，旨在发挥两者的优势，同时克服它们各自的局限。通过这种结合，Jamba不仅能够高效处理长序列数据（这是Mamba的强项），还能保持对复杂语言模式和依赖关系的高度理解（这是Transformer的优势）。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时，既能保持高效率，又不会牺牲性能或精度。 ||

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快 4.5 倍）。这个架构可以高效训练一个包含数十亿参数的文本到视频模型。（arxiv 的 PDF 转 HTML 居然又好了）项目地址：

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型通义千问开源1100亿参数模型Qwen1.5-110B，成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构，采用了分组查询注意力方法(GQA)，使得模型在推理时更加高效。110B模型支持32K上下文长度，具备优秀的多语言能力，支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。来源：雪球7X24资讯

香港首个自主研发基础大模型初步完成

香港首个自主研发基础大模型初步完成第二届香港国际创科展日前在香港会议展览中心开幕。香港科技大学首席副校长兼“香港生成式人工智能研发中心”(HKGAI)主任郭毅可在展会上接受记者采访时透露，由HKGAI训练、香港首个自主研发的基础大模型已初步完成。郭毅可表示，该大模型支持中文和英语，将为香港人工智能发展开辟新里程。他介绍，HKGAI在香港国际创科展上还首度向公众展示了10项自主开发的生成式人工智能服务和应用。这些人工智能研发成果包括，能实时让用户获得法律顾问、导游等各行各业信息的“专家咨询服务机器人”、将用户照片自动生成动画和合成图片的“跨越时空的相遇”应用、利用深度鉴伪技术实时分辨图片真伪的“AI火眼金睛”软件，以及辅助日常文书工作的“未来写作助手”机器人等。

5000亿参数传微软准备推出自研大模型MAI-1

5000亿参数传微软准备推出自研大模型MAI-1 据悉，微软还未明确MAI-1模型的确切用途，具体取决于模型效果如何。报道称，微软可能会在本月晚些时候召开的Build开发者大会上预览这款新模型。微软对此拒绝发表评论。据报道，MAI-1规模将比微软之前训练的小型开源模型“大得多”，这意味着其也会更加昂贵。上个月微软推出了一款名为Phi-3-mini的小型人工智能模型，希望用有成本效益的产品吸引更多客户群体。微软向OpenAI投资了上百亿美元，并在旗下生产力软件中部署OpenAI的人工智能技术，从而在生成式人工智能领域的早期竞赛中取得了领先地位。据报道，为了提升该模型，微软已经配置了装备了英伟达GPU的大型服务器集群，并储备了大量数据。报道称，MAI-1将有大约5000亿个参数。相比之下，OpenAI的GPT-4据称有1万亿个参数，Phi-3 mini有38亿个参数。今年3月份，微软任命苏莱曼为新成立的消费级人工智能部门负责人，同时还聘用了Inflection的几名员工。报道补充说，新模型并不是源自Inflection，但可能用到了这家创业公司的训练数据。（辰辰） ... PC版：手机版：

微软推出其规模最小的人工智能模型 Phi-3

微软推出其规模最小的人工智能模型 Phi-3 微软推出了其轻量级人工智能模型 Phi-3 Mini 的下一个版本，这是该公司计划发布的三款小型模型中的第一款。Phi-3 Mini 可测量 38 亿个参数，其训练数据集比 GPT-4 等大型语言模型要小。现在可在 Azure、Hugging Face 和 Ollama 上使用。微软计划发布 Phi-3 Small (7B 参数) 和 Phi-3 Medium (14B 参数)。参数指的是模型能理解多少复杂指令。与大型人工智能模型相比，小型人工智能模型通常运行成本更低，并且在手机和笔记本电脑等个人设备上表现更好。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人