利用 Meta 的 ImageBind 训练出来的多模态模型。

利用Meta的ImageBind训练出来的多模态模型。只使用了文本-图像数据进行微调就获得了很好的多模态效果。YixuanSu: WearesuperexcitedtosharePandaGPT,thefirstfoundationmodelcapableofinstruction-followingdataacrosssixmodalities,withouttheneedofexplicitsupervision.[1/n]ProjectPage:Demo:Code:

相关推荐

封面图片

Meta 不会在欧盟发布新的多模态 AI 模型

Meta不会在欧盟发布新的多模态AI模型获悉,Meta将不会向欧盟客户提供其下一代以及未来的多模态人工智能模型,原因是欧盟监管机构缺乏明确规定。Meta在声明中表示:“我们将在未来几个月内发布一个多模态的Llama模型,但由于欧洲监管环境的不可预测性,该模型不会在欧盟发布。”Meta表示,其决定还意味着,尽管多模态模型是在开放许可下发布的,但欧洲公司将无法使用该模型。该公司还计划很快发布更大的仅文本版本的Llama3模型。Meta表示,这将供欧盟的客户和公司使用。Meta的问题不在于《人工智能法案》,而在于如何使用欧盟客户的数据来训练模型,同时遵守GDPR。——

封面图片

利用Meta的ImageBind训练出来的多模态模型。只使用了文本-图像数据进行微调就获得了很好的多模态效果。https://vxtwitter.com/yixuan_su/status/1661064018868551691

封面图片

Meta ImageBind 多模态模型开源,我们离AGI又进一步。

MetaImageBind多模态模型开源,我们离AGI又进一步。当人类看到一辆行驶中的火车,不仅会使用视觉,还会听到声音,感知距离,感知速度。ImageBind也是类似,它将六种数据,文本,音频,视觉,运动,温度,深度,嵌入到一个向量空间,让模型像千脑智能那样,调动不同的感知区域进行「交谈」并做出全面的解释和判断。(这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。)一些应用(见图):-通过火车的声音、图像、深度信息,生成准确的文字描述-通过鸽子的图片和摩托的声音,减缩到摩托车和鸽子的图像-通过企鹅的声音,生成企鹅的图像另一些可能性:-拍摄一段海洋日落的视频,自动生成完美的音频剪辑。-通过静态图像和音频组合,创建动画。-通过Make-A-Video生成视频时,自动加上背景音。(飞狗图)未来不止于此,模型还可以引入更多的模态,如触觉、语音、嗅觉和大脑fMRI信号,以增强模型对实体世界的感知。https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

封面图片

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT:一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力,PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合(如上图所示)。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐,PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本,PandaGPT只更新了以下模块:在ImageBind的编码结果上新增一个线性投影矩阵,将ImageBind生成的表示转换后插入到Vicuna的输入序列中;在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是,训练过程中仅对模型输出对应部分进行权重更新,不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是,目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练,但是继承了ImageBind编码器的六种模态理解能力(图像/视频、文本、音频、深度度、热量图和IMU)和它们之间的对齐属性,从而具备在所有模态之间跨模态能力。在实验中,作者展示了PandaGPT对不同模态的理解能力,包括基于图像/视频的问答,基于图像/视频的创意写作,基于视觉和听觉信息的推理等等,下面是一些例子:图像:音频:视频:与其他多模态语言模型相比,PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频:图像+音频:总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力,但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力,例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示,导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究,如跨模态注意力机制,可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中,即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷,包括幻觉、毒性和刻板印象。最后,作者们强调,PandaGPT仅仅是一个研究原型,暂时还不足以直接应用于生产环境。...PC版:https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版:https://m.cnbeta.com.tw/view/1363375.htm

封面图片

当虹科技发布多模态视听大模型 BlackEye

当虹科技发布多模态视听大模型BlackEye据当虹科技消息,在4月27日下午召开的“2024中关村论坛・超高清视听科技创新发展论坛”上,当虹科技与北京经济技术开发区联合发布BlackEye大模型基座及应用场景。BlackEye融合了多种深度神经网络组件,包括Transformer、Diffusion等组件,通过文本、图像、视音频、三维模型等多种模态的编码、解码、多模态潜空间对齐、多模态语言推理及生成等技术,实现不同模态信息之间的推理和预测生成。

封面图片

尝试了几个输入,不愧是从(可能是世界上最)政治不正确的板块里训练出来的模型

尝试了几个输入,不愧是从(可能是世界上最)政治不正确的板块里训练出来的模型有趣的是(在网站首页写了),这个模型输出的结果在TruthfulQA这个评价体系中被认为比GPT-J和GPT-3更诚实。lemursage25minutesagoItmaybejustaquestionofdaysuntilsomebodyhooksitupbackto/r/pol.Ibetqualityofdiscussionwon'tdecreasethough.估计过几天就有人把它接回政治版/pol/的讨论区了。我猜讨论质量甚至不会下降。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人