AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型 以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。 、

相关推荐

封面图片

AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba 开创性的SSM - Transformer架构 52B 参数,12B 在生成时处于活动状态 16 位专家,生成过程中仅2个专家处于活跃状态 结合了Joint Attention和Mamba技术 支持 256K 上下文长度 单个 A100 80GB 最多可容纳 140K 上下文 与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。 背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model, SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。 而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。 ||

封面图片

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快 4.5 倍)。 这个架构可以高效训练一个包含数十亿参数的文本到视频模型。(arxiv 的 PDF 转 HTML 居然又好了) 项目地址:

封面图片

通义千问开源千亿级参数模型

通义千问开源千亿级参数模型 通义千问开源1100亿参数模型Qwen1.5-110B,成为全系列首个千亿级参数开源模型。通义千问1100亿参数模型延续了Qwen1.5系列的Transformer解码器架构,采用了分组查询注意力方法(GQA),使得模型在推理时更加高效。110B模型支持32K上下文长度,具备优秀的多语言能力,支持中、英、法、德、西、俄、日、韩、越、阿拉伯等多种语言。 来源:雪球7X24资讯

封面图片

香港首个自主研发基础大模型初步完成

香港首个自主研发基础大模型初步完成 香港首个自主研发的基础大模型已初步完成,支持中英双语。 据中新社星期天(4月14日)报道,在第二届香港国际创科展上,香港科技大学首席副校长兼“香港生成式人工智能研发中心”(HKGAI)主任郭毅可接受记者采访时透露,由HKGAI训练、香港首个自主研发的基础大模型已初步完成。 郭毅可说,该大模型支持中文和英文,将为香港人工智能发展开辟新里程。他介绍,HKGAI在香港国际创科展上还首度向公众展示了10项自主开发的生成式人工智能服务和应用。 这些人工智能研发成果包括,能实时让用户获得法律顾问、导游等各行各业信息的“专家咨询服务机器人”、将用户照片自动生成动画和合成图片的“跨越时空的相遇”应用、利用深度鉴伪技术实时分辨图片真伪的“AI火眼金睛”软件,以及辅助日常文书工作的“未来写作助手”机器人等。 HKGAI于2023年10月成立,是InnoHK创新香港研发平台下唯一专注于生成式人工智能的科研机构。 2024年4月14日 4:26 PM

封面图片

腾讯混元文生图模型开源 采用Sora同架构

腾讯混元文生图模型开源 采用Sora同架构 5月14日,腾讯宣布旗下混元文生图模型升级并开源,参数量15亿,目前已在平台及上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局,采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍,混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型,综合指标在文生图算法中排名第三。

封面图片

华为云董理斌:大模型创新需围绕企业生产场景、核心场景展开

华为云董理斌:大模型创新需围绕企业生产场景、核心场景展开 7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议期间,华为云 Marketing 部部长董理斌在主题演讲中表示,大模型创新需围绕企业生产场景、核心场景展开,帮助企业实现产品的创新,生产效率的提升,以及工作环境的持续改善。例如,在钢铁领域,盘古大模型能够对热轧生产线的最优参数进行预测,显著减少调优时间,提升工厂生产效益。(界面)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人