15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。
15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。 支持 100 万上下文的文本检索,可以分析超过 1 小时的视频,支持视频生成和图片生成。 模型介绍: 我们创建了一个包含多样视频和书籍的大型数据集,运用了 RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。 本文的主要贡献包括:(a) 构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的 Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。 (b) 提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。 (c) 实现了一种高度优化的训练方案,结合了 RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。 (d) 完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。 这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。 项目页面:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人