OmniFusion:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统

:高级的多模态AI模型,旨在通过集成其他数据模态(如图像、音频、3D和视频内容)来扩展传统语言处理系统的功能。开源OmniFusion核心是Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L和DinoV2)。最初专注于图像,我们选择CLIP-ViT-L作为视觉编码器,因为它具有高效的信息传输能力。OmniFusion最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或MLP结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。该适配器从视觉编码器(不包括CLS令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

相关推荐

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

iOS 的 Gamma PS1 模拟器获得了多设备支持和更好的音频效果

开发者本杰明·斯塔克(又名ZodTTD)在一封邮件中告诉《TheVerge》,他最近的更新中的增强音频功能通过“使用混响和插值效果”改进了音频。他还“增加了多点仿真”,专门为那些使用索尼适配器的游戏,这款适配器将PS1的控制器端口从两个扩展到四个。(这用于《古惑狼赛车》、《NBAJam:锦标赛版》等游戏。)标签:#Apple#模拟器频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

北京大学Yuangroup团队发起了一个 Open-Sora计划,旨在复现OpenAI 的Sora模型。

北京大学Yuangroup团队发起了一个Open-Sora计划,旨在复现OpenAI的Sora模型。通过视频VQ-VAE、DenoisingDiffusionTransformer和条件编码器等技术组件,来实现Sora模型的功能。它由以下组成部分组成。1.VideoVQ-VAE.2.DenoisingDiffusionTransformer.3.ConditionEncoder.

封面图片

机器学习方案手册,一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字

机器学习方案手册,一本包含逐步说明为各种任务训练深度学习模型的书。内容覆盖自然语言处理、计算机视觉、图像与文字本书分为3个部分:自然语言处理(NLP)计算机视觉(CV)图片和文字以下是本节各章的简要概述:命名实体识别-讨论使用conllpp数据集识别命名实体的训练转换器模型。我们将使用的特定模型称为bert-base-cased。该模型是原始BERT的较小版本,并且区分大小写,这意味着它将大写和小写字母视为不同。掩蔽语言建模-与填空问题类似,我们训练一个模型来使用xsum数据集预测句子中的掩蔽词。我们将使用的特定模型称为distilbert-base-uncased。这是bertbaseuncased模型的精炼版本,它以相同的方式处理大写和小写字母。机器翻译——在本章中,训练一个模型将文本从英语翻译成西班牙语。我们将在新闻评论数据集上训练来自赫尔辛基NLP小组的变压器模型。总结——在本章中,训练了一个多语言模型来总结英语和西班牙语句子。使用的模型是T5Transformer模型的多语言版本,使用的数据集是amazonreviewsdataset。因果语言建模-本章重点介绍训练模型以自动完成Python代码。为此,我们将使用用于训练代码鹦鹉模型的数据。计算机视觉部分涵盖了该领域下最常见的任务。本节中的章节使用pytorch闪电、pytorch图像模型(timm)、albumentations库和权重和偏差平台。以下是本节各章的简要概述:图像分类-我们将训练卷积神经网络(CNN)模型对动物图像进行分类。我们将使用的CNN模型是“resnet34”,使用的数据集是动物图像数据集。图像分割-本章侧重于训练模型以分割给定图像中的道路。我们将使用U-net模型来完成此任务。物体检测——在本章中,我们将专注于检测图像中的汽车。我们将预测与图像中包围汽车的边界框相对应的坐标。对于这个任务,我们将使用fast-rcnn模型。最后一节包含训练模型以在给定图像的情况下生成标题的章节。它将有一个视觉转换器作为编码器,gpt-2模型作为解码器。#电子书#机器学习#手册

封面图片

Midjourney劲敌来了 Google StyleDrop王牌“定制大师”引爆AI艺术圈

Midjourney劲敌来了GoogleStyleDrop王牌“定制大师”引爆AI艺术圈再来一张卡通风,想要绘制的物体呆萌了许多。甚至,它还能精准把控细节,设计出原风格的logo。StyleDrop的魅力在于,只需要一张图作为参考,无论多么复杂的艺术风格,都能解构再复刻。网友纷纷表示,又是淘汰设计师的那种AI工具。StyleDrop爆火研究便是来自Google研究团队最新出品。论文地址:https://arxiv.org/pdf/2306.00983.pdf现在,有了StyleDrop这样的工具,不但可以更可控地绘画,还可以完成之前难以想象的精细工作,比如绘制logo。就连英伟达科学家将其称为“现象级”成果。“定制”大师论文作者介绍道,StyleDrop的灵感来源Eyedropper(吸色/取色工具)。同样,StyleDrop同样希望大家可以快速、毫不费力地从单个/少数参考图像中“挑选”样式,以生成该样式的图像。一只树懒能够有18种风格:一只熊猫有24种风格:小朋友画的水彩画,StyleDrop完美把控,甚至连纸张的褶皱都还原出来了。不得不说,太强了。还有StyleDrop参考不同风格对英文字母的设计:同样是梵高风的字母。还有线条画。线条画是对图像的高度抽象,对画面生成构成合理性要求非常高,过去的方法一直很难成功。原图中奶酪阴影的笔触还原到每种图片的物体上。参考AndroidLOGO创作。此外,研究人员还拓展了StyleDrop的能力,不仅能定制风格,结合DreamBooth,还能定制内容。比如,还是梵高风,给小柯基生成类似风格的画作:再来一个,下面这只柯基有种埃及金字塔上的“狮身人面像”的感觉。如何工作?StyleDrop基于Muse构建,由两个关键部分组成:一个是生成视觉Transformer的参数有效微调,另一个是带反馈的迭代训练。之后,研究人员再从两个微调模型中合成图像。Muse是一种基于掩码生成图像Transformer最新的文本到图像的合成模型。它包含两个用于基础图像生成(256×256)和超分辨率(512×512或1024×1024)的合成模块。每个模块都由一个文本编码器T,一个transformerG,一个采样器S,一个图像编码器E和解码器D组成。T将文本提示t∈T映射到连续嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S通过迭代解码从对数中提取视觉token序列v∈V,该迭代解码运行几步的transformer推理,条件是文本嵌入e和从前面步骤解码的视觉token。最后,D将离散token序列映射到像素空间I。总的来说,给定一个文本提示t,图像I的合成如下:图2是一个简化了的Musetransformer层的架构,它进行了部分修改,为的是支持参数高效微调(PEFT)与适配器。使用L层的transformer处理在文本嵌入e的条件下以绿色显示的视觉token序列。学习参数θ被用于构建适配器调优的权重。为了训练θ,在许多情况下,研究人员可能只给出图片作为风格参考。研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示,包括对内容的描述,后面跟着描述风格的短语。例如,研究人员在表1中用“猫”描述一个对象,并附加“水彩画”作为风格描述。在文本提示中包含内容和风格的描述至关重要,因为它有助于从风格中分离出内容,这是研究人员的主要目标。图3则是带反馈的迭代训练。当在单一风格参考图像(橙色框)上进行训练时,StyleDrop生成的一些图像可能会展示出从风格参考图像中提取出的内容(红色框,图像背景中含有与风格图像类似的房子)。其他图像(蓝色框)则能更好地从内容中拆分出风格。对StyleDrop进行好样本(蓝色框)的迭代训练,结果在风格和文本保真度之间取得了更好的平衡(绿色框)。这里研究人员还用到了两个方法:-CLIP得分该方法用于测量图像和文本的对齐程度。因此,它可以通过测量CLIP得分(即视觉和文本CLIP嵌入的余弦相似度)来评估生成图像的质量。研究人员可以选择得分最高的CLIP图像。他们称这种方法为CLIP反馈的迭代训练(CF)。在实验中,研究人员发现,使用CLIP得分来评估合成图像的质量是提高召回率(即文本保真度)的有效方式,而不会过多损失风格保真度。然而从另一方面看,CLIP得分可能不能完全与人类的意图对齐,也无法捕捉到微妙的风格属性。-HF人工反馈(HF)是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。在强化学习的LLM微调中,HF已经证明了它的强大和有效。HF可以用来补偿CLIP得分无法捕捉到微妙风格属性的问题。目前,已有大量研究关注了文本到图像的扩散模型的个性化问题,以合成包含多种个人风格的图像。研究人员展示了如何以简单的方式将DreamBooth和StyleDrop结合起来,从而使风格和内容都能实现个性化。这是通过从两个修改后的生成分布中采样来完成的,分别由风格的θs和内容的θc指导,分别是在风格和内容参考图像上独立训练的适配器参数。与现有的成品不同,该团队的方法不需要在多个概念上对可学习的参数进行联合训练,这就带来了更大的组合能力,因为预训练的适配器是分别在单个主题和风格上进行训练的。研究人员的整体采样过程遵循等式(1)的迭代解码,每个解码步骤中采样对数的方式有所不同。设t为文本提示,c为无风格描述符的文本提示,在步骤k计算对数如下:其中:γ用于平衡StyleDrop和DreamBooth——如果γ为0,我们得到StyleDrop,如果为1,我们得到DreamBooth。通过合理设置γ,我们就可以得到合适的图像。实验设置目前为止,还没有对文本-图像生成模型的风格调整进行广泛的研究。因此,研究人员提出了一个全新实验方案:-数据收集研究者收集了几十张不同风格的图片,从水彩和油画,平面插图,3D渲到不同材质的雕塑。-模型配置研究人员使用适配器调优基于Muse的StyleDrop。对于所有实验,使用Adam优化器更新1000步的适配器权重,学习速率为0.00003。除非另有说明,研究人员使用StyleDrop来表示第二轮模型,该模型在10多个带有人工反馈的合成图像上进行训练。-评估研究报告的定量评估基于CLIP,衡量风格一致性和文本对齐。此外,研究人员进行了用户偏好研究,以评估风格一致性和文本对齐。如图,研究人员收集的18个不同风格的图片,StyleDrop处理的结果。可以看到,StyleDrop能够捕捉各种样式的纹理、阴影和结构的细微差别,能够比以前更好地控制风格。为了进行比较,研究人员还介绍了DreamBooth在Imagen上的结果,DreamBooth在StableDiffusion上的LoRA实现和文本反演的结果。具体结果如表所示,图像-文本对齐(Text)和视觉风格对齐(Style)的人类评分(上)和CLIP评分(下)的评价指标。(a)DreamBooth,(b)StyleDrop,和(c)DreamBooth+StyleDrop的定性比较:这里,研究人员应用了上面提到的CLIP分数的两个指标——文本和风格得分。对于文本得分,研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分,研究人员测量风格参考和合成图像嵌入之间的余弦相似度。研究人员为190个文本提示生成总共1520个图像。虽然研究人员希望最终得分能高一些,但其实这些指标并不完美。而迭代训练(IT)提高了文本得分,这符合研究人员的目标。然而,作为权衡,它们在第一轮模型上的风格得分有所降低,因为它们是在合成图像上训练的,风格可能因选择偏见而偏移。Imagen上的DreamBooth在风格得分上不及StyleDrop(HF的0.644对比0.694)。研究人员注意到,Imagen上的DreamBooth的风格得分增加并不明显(0.569→0.644),而Muse上的StyleDrop的增加更加明显(0.556→0.694)。研究人员分析,Muse上的风格微调比Imagen上的更有效。另外,在细粒度控制上,StyleDrop捕捉微妙的风...PC版:https://www.cnbeta.com.tw/articles/soft/1363333.htm手机版:https://m.cnbeta.com.tw/view/1363333.htm

封面图片

LLaV:一个拥有类似 GPT-4 的大语言+视觉模型

LLaV:一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力,但这一想法在多模式领域的探索较少。所以,我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整,并推出了LLaVA:大型语言和视觉助手。这是一种端到端训练的大型多模态模型,连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明,LLaVA展示了令人印象深刻的多模型聊天能力,有时在看不见的图像/指令上表现出多模态GPT-4的行为,并且与合成多模态指令跟随数据集上的GPT-4相比,相对分数达到了85.1%。当在ScienceQA上进行微调时,LLaVA和GPT-4的协同作用达到了92.53%,这个准确率颇高。因此,我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人