用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单-机器之心

用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单-机器之心北京大学与腾讯等机构的研究者们提出了多模态对齐框架——LanguageBind。该框架在视频、音频、文本、深度图和热图像等五种不同模态的下游任务中取得了卓越的性能,刷榜多项评估榜单,这标志着多模态学习领域向着「大一统」理念迈进了重要一步。via投稿:@ZaiHuaBot频道:@TestFlightCN

相关推荐

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应

北大发起复现Sora:框架已搭袁粒、田永鸿领衔AnimateDiff大神响应为什么发起这项计划?因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:还有人表示可以提供高质量数据集:所以,“国产版Sora”的新挑战者,就这么来了?计划细节,已完成3个初步功能首先,来看目前公布的技术细节——即团队打算如何复现Sora。整体框架上,它将由三部分组成:VideoVQ-VAEDenoisingDiffusionTransformer(去噪扩散型Transformer)ConditionEncoder(条件编码器)这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比,团队通过参考上海AILab刚刚提出的FiT(FlexibleVisionTransformerforDiffusionModel,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。具体来说,我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素,然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频,以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。具体而言:我们将可变分辨率噪声潜变量的位置索引从[0,seq_length-1]下调到[0,255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的VideoVQ-VAE,,将视频压缩至潜在空间,支持这一功能。同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:这三个功能都已经初步实现。相关的训练代码也已经在对应的仓库上上线:成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧128128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。而从目前已经列出的9项todo事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。未来要做的包括:采样脚本添加位置插值在更高分辨率上微调Video-VQVAE合并SiT纳入更多条件以及最重要的:使用更多数据和更多GPU进行训练袁粒、田永鸿领衔严格来说,OpenSora计划是北大-兔展AIGC联合实验室联合发起的。领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。从目前公布的团队名单来看,其余成员大部分为硕士生。包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR2024)等工作。兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)。完整名单:谁能率先发布中文版Sora?相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。在这之中,传闻最大的是字节。今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。很快,一款叫做“Boximator”的视频生成模型浮出水面。它基于PixelDance和ModelScope两个之前的成果上完成训练。不过,很快字节就辟谣这不是“字节版sora”:它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。但,风声并未就此平息。去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。现在,又有消息称:Dreamina即将上线类似sora的视频生成功能(目前在内测)。不知道,这一次是不是字节亮出的大招呢?OpenSora项目主页:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.htmlhttps://github.com/PKU-YuanGroup/Open-Sora-Plan...PC版:https://www.cnbeta.com.tw/articles/soft/1422170.htm手机版:https://m.cnbeta.com.tw/view/1422170.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人