剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT：一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：图像：音频：视频：与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频：图像+音频：总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。...PC版：https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版：https://m.cnbeta.com.tw/view/1363375.htm

在Telegram中查看

相关推荐

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单-机器之心

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单-机器之心北京大学与腾讯等机构的研究者们提出了多模态对齐框架——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能，刷榜多项评估榜单，这标志着多模态学习领域向着「大一统」理念迈进了重要一步。via投稿：@ZaiHuaBot频道：@TestFlightCN

Reka 推出多模态语言模型 Reka Core

Reka推出多模态语言模型RekaCoreRekaCore拥有128K上下文窗口，可以进行图像、视频和音频理解。一同发布的还有小版本的Flash(21B)和Edge(7B)。在第三方人类盲测评估中，RekaCore的性能次于GPT-4-Turbo-1106和Claude3Opus。Reka还有意在预训练数据中加入了15%的多语言数据(Llama3为5%)，包括32种加权语言和110种语言的维基百科，它能说流利的英语以及几种亚洲和欧洲语言。线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

微软公布可以理解图像内容的 AI 模型

微软公布可以理解图像内容的AI模型微软的研究人员介绍了多模态模型，它可以分析图像内容，解决拼图问题，进行视觉文本识别，通过视觉智商测试，并理解自然语言指令。研究人员认为，整合了文本、音频、图像和视频等不同输入模式的多模态人工智能，是建立人工通用智能（AGI）的关键步骤，可以执行人类水平的一般任务。他们在一些测试中评估了Kosmos-1的能力，包括语言理解、语言生成、无光学字符识别的文本分类、图像说明、视觉问题回答、网页问题回答和零样本图像分类。微软称，在许多这些测试中，Kosmos-1的表现超过了目前最先进的模型。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

当虹科技发布多模态视听大模型 BlackEye

当虹科技发布多模态视听大模型BlackEye据当虹科技消息，在4月27日下午召开的“2024中关村论坛・超高清视听科技创新发展论坛”上，当虹科技与北京经济技术开发区联合发布BlackEye大模型基座及应用场景。BlackEye融合了多种深度神经网络组件，包括Transformer、Diffusion等组件，通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术，实现不同模态信息之间的推理和预测生成。

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

xAI 推出首个多模态 AI 模型 Grok-1.5V

xAI推出首个多模态AI模型Grok-1.5V马斯克旗下人工智能公司xAI宣布推出首个多模态AI模型Grok-1.5V。除了强大的文本处理能力，Grok还能够处理各种视觉信息，包括文档、图表、屏幕截图和照片等。在多个领域的基准测试中，Grok-1.5V的表现均可与现有的前沿多模态模型相媲美。尤其在xAI新推出的RealWorldQA基准测试中，Grok在现实世界空间理解能力上超越了同类模型。RealWorldQA数据集包含700多张图像，旨在评估多模态模型对物理世界的基本理解能力。Grok-1.5将很快向早期测试人员和现有用户开放。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人