15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。 支持 100 万上下文的文本检索,可以分析超过 1 小时的视频,支持视频生成和图片生成。 模型介绍: 我们创建了一个包含多样视频和书籍的大型数据集,运用了 RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。 本文的主要贡献包括:(a) 构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的 Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。 (b) 提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。 (c) 实现了一种高度优化的训练方案,结合了 RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。 (d) 完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。 这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。 项目页面:

相关推荐

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。 Gemini 1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。 Gemini 1.5 Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。 它标准的上下文窗口为128,000个Token,但现在已经可以通过AI Studio和Vertex AI向开发者和企业客户提供高达100万个Token的私人预览。 1.5 Pro 可以一次处理大量信息包括 1 小时的视频、11 小时的音频、包含超过 30,000 行代码的代码库或超过 700,000 个单词。 Gemini 1.5 Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini 1.0 Pro,并且与1.0 Ultra在同样的基准测试上表现相当。 此外,Gemini 1.5 Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。 了解更多:#context-window

封面图片

Google Gemini模型已上线Poe

Google Gemini模型已上线Poe Google Gemini模型现已上线Poe,支持上传图片,官方介绍:这是谷歌Gemini家族的多模态模型的Beta版本,该模型在模型性能和速度之间实现了平衡。该模型展现了优秀的通用能力,尤其擅长跨模态推理,并支持最大32k个tokens的上下文窗口。 via 匿名 标签: #Google #Gemini #Poe 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

是一个15.5B参数模型,使用80多种编程语言的GitHub代码进行训练。

是一个15.5B参数模型,使用80多种编程语言的GitHub代码进行训练。 该模型采用了多查询注意力和8192个Token的上下文窗口,使用了1万亿个Token的填充中间目标进行训练。可用于生成代码片段,但生成的代码不保证有效、没有漏洞或不包含漏洞 |

封面图片

苹果推出300亿参数多模态大模型 全面转向生成式AI

苹果推出300亿参数多模态大模型 全面转向生成式AI 就在近日,苹果公司研发团队发布了一篇论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次公布了多模态大模型MM1,展示了该公司在AI方面的进展与实力。据悉,MM1最高参数量为300亿,该模型支持增强的上下文学习和多图像推理,在一些多模态基准测试中有较好表现。研究人员使用这些模型进行实验,找出影响大模型表现的关键因素。有趣的是,图像分辨率和图像标签数量比视觉语言连接器的影响更大,不同的预训练数据集会显著影响模型的有效性。MM1的独特之处在于其庞大的规模和架构创新,包括密集的模型和混合专家模型。这些模型证明了研究人员方法的有效性,将大规模预训练与战略性数据选择相结合,以增强模型的学习能力。研发团队称,MM1不仅在预训练指标中是“最先进的”,并且在一系列已建立的多模态基准测试中,经过微调后也保持了“有竞争力的”性能。MM1可以支持增强的上下文学习和多图像推理,使得少数样本的思维链提示成为可能。然而,目前MM1的整体性能还没有完全超过谷歌的Gemini和OpenAI的GPT-4,虽然MM1可能还不是绝对的领导者,但它仍然是苹果在AI方面的一次重大飞跃。与此同时,苹果公司还出手收购了AI初创公司DarwinAI。DarwinAI以创建更小、更快的AI系统见长,这是实现设备上高效处理的关键因素。收购完成后,DarwinAI的网站和社交媒体账户已悄然下线。据悉,数十名DarwinAI员工已经加入了苹果的AI部门,作为交易的一部分,滑铁卢大学的AI研究员Alexander Wong已加入苹果,担任AI团队的总监。 ... PC版: 手机版:

封面图片

Google发布了Gemini 1.5 Pro模型的技术报告,报告介绍了Gemini 1.5 Pro的模型架构、训练数据与基础设

Google发布了Gemini 1.5 Pro模型的技术报告,报告介绍了Gemini 1.5 Pro的模型架构、训练数据与基础设施、长文本评测和通用能力评测。 其中一个例子是Gemini 1.5 Pro只需要一个生僻语种的语法手册就可以学会这个语言。 论文简介: Gemini 1.5 Pro:这是一个高效能的多模态混合专家模型(mu ...

封面图片

AI21发布世界首个Mamba的生产级模型:Jamba

AI21发布世界首个Mamba的生产级模型:Jamba 开创性的SSM - Transformer架构 52B 参数,12B 在生成时处于活动状态 16 位专家,生成过程中仅2个专家处于活跃状态 结合了Joint Attention和Mamba技术 支持 256K 上下文长度 单个 A100 80GB 最多可容纳 140K 上下文 与 Mixtral 8x7B 相比,长上下文的吞吐量提高了 3 倍 Jamba结合了Mamba结构化状态空间(SSM)技术和传统的Transformer架构的元素,弥补了纯SSM模型固有的局限。 背景知识 Jamba代表了在模型设计上的一大创新。这里的"Mamba"指的是一种结构化状态空间模型(Structured State Space Model, SSM),这是一种用于捕捉和处理数据随时间变化的模型,特别适合处理序列数据,如文本或时间序列数据。SSM模型的一个关键优势是其能够高效地处理长序列数据,但它在处理复杂模式和依赖时可能不如其他模型强大。 而"Transformer"架构是近年来人工智能领域最为成功的模型之一,特别是在自然语言处理(NLP)任务中。它能够非常有效地处理和理解语言数据,捕捉长距离的依赖关系,但处理长序列数据时会遇到计算效率和内存消耗的问题。 Jamba模型将Mamba的SSM技术和Transformer架构的元素结合起来,旨在发挥两者的优势,同时克服它们各自的局限。通过这种结合,Jamba不仅能够高效处理长序列数据(这是Mamba的强项),还能保持对复杂语言模式和依赖关系的高度理解(这是Transformer的优势)。这意味着Jamba模型在处理需要理解大量文本和复杂依赖关系的任务时,既能保持高效率,又不会牺牲性能或精度。 ||

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人