Meta ImageBind 多模态模型开源，我们离AGI又进一步。

MetaImageBind多模态模型开源，我们离AGI又进一步。当人类看到一辆行驶中的火车，不仅会使用视觉，还会听到声音，感知距离，感知速度。ImageBind也是类似，它将六种数据，文本，音频，视觉，运动，温度，深度，嵌入到一个向量空间，让模型像千脑智能那样，调动不同的感知区域进行「交谈」并做出全面的解释和判断。（这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。）一些应用（见图）：-通过火车的声音、图像、深度信息，生成准确的文字描述-通过鸽子的图片和摩托的声音，减缩到摩托车和鸽子的图像-通过企鹅的声音，生成企鹅的图像另一些可能性：-拍摄一段海洋日落的视频，自动生成完美的音频剪辑。-通过静态图像和音频组合，创建动画。-通过Make-A-Video生成视频时，自动加上背景音。（飞狗图）未来不止于此，模型还可以引入更多的模态，如触觉、语音、嗅觉和大脑fMRI信号，以增强模型对实体世界的感知。https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

在Telegram中查看

相关推荐

机构人士：2024 年大模型领域的竞争将进一步白热化多模态大模型有望推动本轮 AI 行情进一步扩散

机构人士：2024年大模型领域的竞争将进一步白热化多模态大模型有望推动本轮AI行情进一步扩散2023年，AI“狂飙突进”了一整年。在产业层面，国内外科技巨头围绕AI大模型打响了“百模大战”；在资本市场，AI概念成为市场主线之一。展望2024年，机构人士认为，大模型领域的竞争将进一步白热化，多模态大模型将成为生成式AI的重点发展方向，并有望推动本轮AI行情进一步扩散。(上证报)

元隆雅图：正在研究利用多模态 AIGC 工具进一步提升 AIGC 模型的效能

元隆雅图：正在研究利用多模态AIGC工具进一步提升AIGC模型的效能元隆雅图12月18日在互动平台表示，目前公司通过国家知识产权局发明专利初审的AIGC模型具备文本生成图片的能力，经过预训练，可使输出图片在内容丰富多样的同时，保持风格的一致性和稳定性。该模型可为用户提供个性化创作工具，大幅提升内容生成和创作效率，能够广泛应用于企业品牌形象创作、IP衍生内容及产品创作、UGC数字艺术创作、用户社交创意玩法等多种场景。公司正在研究利用多模态AIGC工具进一步提升AIGC模型的效能。

MetaImageBind多模态模型开源，我们离AGI又进一步。当人类看到一辆行驶中的火车，不仅会使用视觉，还会听到声音，感知距

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MetaAI开源ImageBind，可让模型跨6种不同的模态（图像、文本、音频、深度、热能和IMU数据）进行联动借助ImageBind，则可以做到直接通过声音来直接生成图像。这使得AI能够更加深入了解人类情感，理解他们的喜怒哀乐，进而为人类提供更好的服务。当你举起手机，录制一个海边日落的视频时，AI便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。至AI还有可能通过一首歌，直接为歌手生成一段视频MV。此举将为AIGC技术带来更为广泛的应用场景，一大波更为有趣、实用的AI项目也即将来袭。#AI来源，https://github.com/facebookresearch/ImageBind来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

当虹科技发布多模态视听大模型 BlackEye

当虹科技发布多模态视听大模型BlackEye据当虹科技消息，在4月27日下午召开的“2024中关村论坛・超高清视听科技创新发展论坛”上，当虹科技与北京经济技术开发区联合发布BlackEye大模型基座及应用场景。BlackEye融合了多种深度神经网络组件，包括Transformer、Diffusion等组件，通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术，实现不同模态信息之间的推理和预测生成。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT：一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：图像：音频：视频：与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频：图像+音频：总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。...PC版：https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版：https://m.cnbeta.com.tw/view/1363375.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人