15 号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟 Gemini 1.5 Pro 的能力差不多了。

15号发布的一个大世界模型,感觉像是一个带视频生成的多模态模型,也挺厉害了,跟Gemini1.5Pro的能力差不多了。支持100万上下文的文本检索,可以分析超过1小时的视频,支持视频生成和图片生成。模型介绍:我们创建了一个包含多样视频和书籍的大型数据集,运用了RingAttention(环形注意力)技术来高效训练长序列,并逐步将上下文大小从4千扩展至100万个标记。本文的主要贡献包括:(a)构建了具有最大上下文大小的神经网络:我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的Transformer(变换器),在复杂的检索任务和长视频理解方面设立了新的标准。(b)提出了克服视觉-语言训练挑战的多种解决方案,包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性,以及为长序列对话创建由模型生成的问答数据集。(c)实现了一种高度优化的训练方案,结合了RingAttention、遮蔽序列打包等关键特性,适用于数百万长度的多模态序列。(d)完全开源了一系列拥有70亿参数的模型家族,能够处理长达100万标记以上的长文本文档(LWM-Text,LWM-Text-Chat)和视频(LWM,LWM-Chat)。这项工作为在大规模的长视频和语言数据集上训练,进而理解人类知识和多模态世界,以及开发更广泛的AI能力铺平了道路。项目页面:

相关推荐

封面图片

中信证券:OpenAI 推出视频生成模型 Sora,AI 产业围绕多模态不断加码

中信证券:OpenAI推出视频生成模型Sora,AI产业围绕多模态不断加码中信证券研报指出,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态,上下文长度超过百万,Sora在技术上采用了DiffusionTransformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

封面图片

Reka 推出多模态语言模型 Reka Core

Reka推出多模态语言模型RekaCoreRekaCore拥有128K上下文窗口,可以进行图像、视频和音频理解。一同发布的还有小版本的Flash(21B)和Edge(7B)。在第三方人类盲测评估中,RekaCore的性能次于GPT-4-Turbo-1106和Claude3Opus。Reka还有意在预训练数据中加入了15%的多语言数据(Llama3为5%),包括32种加权语言和110种语言的维基百科,它能说流利的英语以及几种亚洲和欧洲语言。线索:@ZaiHuabot投稿:@TNSubmbot频道:@TestFlightCN

封面图片

谷歌发布了Gemini 1.5模型,最主要的升级是支持了高达 100 万的上下文长度,秒杀了所有模型。#ai##llm#

谷歌发布了Gemini1.5模型,最主要的升级是支持了高达100万的上下文长度,秒杀了所有模型。Gemini1.5基于Transformer和MoE架构的研究和工程创新,提高了训练和服务的效率。Gemini1.5Pro是一个中等规模的多模态模型,适用于多种任务,并引入了在长上下文理解方面的实验性特性。它标准的上下文窗口为128,000个Token,但现在已经可以通过AIStudio和VertexAI向开发者和企业客户提供高达100万个Token的私人预览。1.5Pro可以一次处理大量信息——包括1小时的视频、11小时的音频、包含超过30,000行代码的代码库或超过700,000个单词。Gemini1.5Pro在文本、代码、图像、音频和视频评估的综合面板上的性能超过了Gemini1.0Pro,并且与1.0Ultra在同样的基准测试上表现相当。此外,Gemini1.5Pro在进行长上下文窗口的测试中表现出色,在NIAH评估中,它在长达100万个Token的数据块中99%的时间内找到了嵌入的文本。了解更多:#context-window

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

Google Gemini模型已上线Poe

GoogleGemini模型已上线PoeGoogleGemini模型现已上线Poe,支持上传图片,官方介绍:这是谷歌Gemini家族的多模态模型的Beta版本,该模型在模型性能和速度之间实现了平衡。该模型展现了优秀的通用能力,尤其擅长跨模态推理,并支持最大32k个tokens的上下文窗口。via匿名标签:#Google#Gemini#Poe频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

Soul 宣布上线自研大模型 “SoulX”

Soul宣布上线自研大模型“SoulX”近日,新型社交平台Soul宣布上线自研语言大模型SoulX。据了解,该模型基于海量数据训练,具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力。在保证对话流畅、自然、具备情感温度的同时,还能覆盖百种细粒度风险类别,通过训练数据安全筛选、安全SFT数据构造、RLHF安全对齐、推理拦截等策略来构建安全体系,保证了大模型的内容生产质量和安全性。(新浪科技)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人