AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

AI21Labs推出Jamba:首个基于Mamba架构的生产级大模型以色列人工智能初创公司AI21Labs在近日宣布推出开源大语言模型Jamba,这是世界上首个基于Mamba架构的生产级人工智能模型。而目前大多数模型都基于Transformer架构。Jamba将Mamba的结构化状态空间模型(SSM)和传统Transformer架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba拥有高达256k上下文窗口,同时在单个80GBGPU上可容纳最多140K个tokens。其混合结构使Jamba的MoE层允许它在推理时仅使用52B可用参数中的12B参数。——、

相关推荐

封面图片

AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba开创性的SSM-Transformer架构52B参数,12B在生成时处于活动状态16位专家,生成过程中仅2个专家处于活跃状态结合了JointAttention和Mamba技术支持256K上下文长度单个A10080GB最多可容纳140K上下文与Mixtral8x7B相比,长上下文的吞吐量提高了3倍Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。背景知识Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(StructuredStateSpaceModel,SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。

封面图片

AI21Labs推出Jamba:首个基于Mamba架构的生产级大模型https://www.bannedbook.org/bne

封面图片

中国联通推出车联网 AI 大模型

中国联通推出车联网AI大模型中国联通近日在“中国联通车联网大会”上推出基于“元景大模型”的车联网AI大模型。中国联通人工智能创新中心首席人工智能科学家、技术总师廉士国介绍,中国联通对标业界布局多参数、多模态版本,同参数级性能达到业界先进水平。为缩短大模型落地行业的周期,中国联通打造了一条“选模型-改模型-用模型”的工具链,实现从通用能力到专业能力和“职业技能”的塑造。截至目前,在AI能力引入过程当中,结合元景大模型,联通智网科技把能力充分引入到车联网运营过程中,为58家车企近3000万的车主提供数字化的运营服务,助力企业降本提质增效。(国是直通车)

封面图片

【华为推出全新架构升腾AI计算集群 可支持超万亿参数大模型训练】

【华为推出全新架构升腾AI计算集群可支持超万亿参数大模型训练】在华为全联接大会2023期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的升腾AI计算集群——Atlas900SuperCluster,可支持超万亿参数的大模型训练。此外,华为还升级了AscendC编程语言,以更高效的编程方式,简化算子实现逻辑,大幅缩短融合算子的开发周期,为AI模型与应用的快速开发赋能。(#上证报)

封面图片

DeepL 推出 Write Pro AI 写作助手,基于自研大语言模型

DeepL近日宣布推出DeepLWritePro人工智能写作助手。该助手是首个由DeepL自研大语言模型提供支持的服务。DeepL表示,不同于传统生成式人工智能工具,也不同于基于规则的语法纠正工具,DeepLWritePro在用户起草过程中进行创意辅助,通过人工智能实时提供选词、措辞、风格和语气建议,以提升文本质量。DeepL还宣称,无论用户的语言熟练程度如何,这一工具都能找到适合目标场景的用词。此外,DeepLWritePro也面向商用场景设计,为企业用户提供包括TLS加密和文本删除在内的数据安全功能。DeepLWritePro目前支持英语和德语,未来将扩展到更多语言。该工具可在Web端、应用程序、浏览器插件中使用,也已集成到Microsoft365和GoogleWorkspace办公套件中。根据德媒ComputerBase的消息,该订阅服务定价每月10欧元。标签:#DeepL#AI频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

xAI 推出首个多模态 AI 模型 Grok-1.5V

xAI推出首个多模态AI模型Grok-1.5V马斯克旗下人工智能公司xAI宣布推出首个多模态AI模型Grok-1.5V。除了强大的文本处理能力,Grok还能够处理各种视觉信息,包括文档、图表、屏幕截图和照片等。在多个领域的基准测试中,Grok-1.5V的表现均可与现有的前沿多模态模型相媲美。尤其在xAI新推出的RealWorldQA基准测试中,Grok在现实世界空间理解能力上超越了同类模型。RealWorldQA数据集包含700多张图像,旨在评估多模态模型对物理世界的基本理解能力。Grok-1.5将很快向早期测试人员和现有用户开放。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人