MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动

MetaAI 开源 ImageBind，可让模型跨 6 种不同的模态（图像、文本、音频、深度、热能和 IMU 数据）进行联动借助 ImageBind，则可以做到直接通过声音来直接生成图像。这使得 AI 能够更加深入了解人类情感，理解他们的喜怒哀乐，进而为人类提供更好的服务。当你举起手机，录制一个海边日落的视频时，AI 便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐。至 AI 还有可能通过一首歌，直接为歌手生成一段视频 MV。此举将为 AIGC 技术带来更为广泛的应用场景，一大波更为有趣、实用的 AI 项目也即将来袭。#AI 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

AI生成模型合集AI文本生成图像模型

AI生成模型合集 AI文本生成图像模型 DALL-E 2：https://openai.com/product/dall-e-2 Stable Diffusion：https://stablediffusionweb.com/ Craiyon：https://www.craiyon.com/ Jasper：https://www.jasper.ai/ Imagen：https://imagen.research.google/ Midjourney：网站：https://midjourney.com/ 教程：https://www.uisdc.com/midjourney 关键词：https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference NightCafe：https://nightcafe.studio/ GauGAN2： http://gaugan.org/gaugan2/ https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/ WOMBO ：https://www.wombo.ai/ pixray/text2image：https://replicate.com/pixray/text2image neural.love：https://neural.love/ AI文本生成视频模型 Runway：https://runwayml.com/ Fliki：https://fliki.ai/ Synthesia：https://www.synthesia.io/ Meta AI：https://ai.facebook.com/ Google AI：https://ai.google/ Phenaki：https://phenaki.video/ AI文本生成音频模型 Play.ht：https://play.ht/ Murf：https://murf.ai/ Resemble AI：https://www.resemble.ai/ WellSaid：https://wellsaidlabs.com/ Descript：https://www.descript.com/ AI文本生成文本模型 Simplified：https://simplified.com/ Jasper：https://www.jasper.ai/ Frase：https://www.frase.io/ EleutherAI：https://www.eleuther.ai/ AI21 Labs：https://www.ai21.com/ Hub Spot：https://www.hubspot.com/ InferKit：https://inferkit.com/ GooseAI：https://goose.ai/ Research AI：https://researchai.co/ Writesonic：https://writesonic.com/ Cohere：https://cohere.ai/ Chibi：https://chibi.ai/ Ideas AI：https://ideasai.com/ Copysmith：https://app.copysmith.ai/ Flowrite：https://www.flowrite.com/ Nichesss：https://nichesss.com/ Sudowrite：https://www.sudowrite.com/ ideasbyai：https://ideasby.ai/ TextCortex：https://textcortex.com/ OpenAI GPT-3：https://beta.openai.com/playground Blog Idea Generator：https://www.usetopic.com/blog-idea-generator AI文本生成Motion模型 Tree：https://tree.industries/ MDM: Human Motion Diffusion Model： https://guytevet.github.io/mdm-page/ AI文本生成代码模型 replitGhostwriter code：https://replit.com/site/ghostwriter Github copilot：https://github.com/features/copilot AI文本生成NFT模型 LensAI：https://www.lens.xyz/ AI文本生成3D模型 DreamFusion：https://dreamfusion3d.github.io/ CLIP-Mesh：https://www.nasir.lol/clipmesh GET3D：https://nv-tlabs.github.io/GET3D/ AI音频生成文本模型 Descript：https://www.descript.com/ AssemblyAI：https://www.assemblyai.com/ Whisper (OpenAI)：https://openai.com/blog/whisper/ AI音频生成音频模型 AudioLM： https://google-research.github.io/seanet/audiolm/examples/ Voicemod：https://www.voicemod.net/ AI-Brain生成文本模型 speech from brain(metaAI): https://ai.facebook.com/blog/ai-speech-brain-activity/ Non-invasive brain recordings： https://www.biorxiv.org/content/10.1101/2022.09.29.509744v1 AI图像生成文本模型 Neural.love：https://neural.love/ GPT-3 x Image Captions：https://www.auxiliary.tools #实用资源收集 #AI#合集

Meta ImageBind 多模态模型开源，我们离AGI又进一步。

Meta ImageBind 多模态模型开源，我们离AGI又进一步。当人类看到一辆行驶中的火车，不仅会使用视觉，还会听到声音，感知距离，感知速度。 ImageBind 也是类似，它将六种数据，文本，音频，视觉，运动，温度，深度，嵌入到一个向量空间，让模型像千脑智能那样，调动不同的感知区域进行「交谈」并做出全面的解释和判断。（这与文心一言等模型每个模态有自己嵌入空间的所谓多模态截然不同。）一些应用（见图）： - 通过火车的声音、图像、深度信息，生成准确的文字描述 - 通过鸽子的图片和摩托的声音，减缩到摩托车和鸽子的图像 - 通过企鹅的声音，生成企鹅的图像另一些可能性： - 拍摄一段海洋日落的视频，自动生成完美的音频剪辑。 - 通过静态图像和音频组合，创建动画。 - 通过Make-A-Video生成视频时，自动加上背景音。（飞狗图）未来不止于此，模型还可以引入更多的模态，如触觉、语音、嗅觉和大脑 fMRI 信号，以增强模型对实体世界的感知。

StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像，并且可以扩展到视频生成，为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响，并且鼓励用户负责任地使用该工具。使用场景示例：使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频，展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色：一致自注意力机制：生成长序列中的角色一致图像。运动预测器：在压缩的图像语义空间中预测运动，实现更大的运动预测。漫画生成：利用一致自注意力机制生成的图像，无缝过渡创建视频。图像到视频的生成：提供用户输入的条件图像序列来生成视频。两阶段长视频生成：结合两个部分生成非常长且高质量的AIGC视频。条件图像使用：图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成：提供快速的视频生成结果。 |

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型的新标准 - Stability AI公开发布了Stable Diffusion 3 Medium图像生成模型，这是目前该公司最先进的开源文本到图像模型。 - Stable Diffusion 3 Medium是一个20亿参数量的模型，相比之前的模型有显著改进：整体图像质量和逼真度大幅提升，能够生成高质量的照片逼真图像；理解长难句子描述的能力增强；文字质量也有很大提升，减少拼写、字间距等错误。 - 该模型大小适中，非常适合在普通消费级PC和笔记本电脑上运行，也能在企业级GPU上充分发挥性能。它有望成为文本到图像模型的新标准。 - Stable Diffusion 3 Medium在Stability非商业研究社区许可证下对外开源。对于商业用途，鼓励使用新的Creator许可证。大规模商业使用还需联系Stability取得企业许可证。 - 用户可以通过Stability的API、Stable Assistant和Stable Artisan等渠道试用Stable Diffusion 3 Medium。 - Stability AI表示会根据用户反馈持续改进该模型，扩展其功能，提升性能。目标是为艺术创作和业余用户都设定一个新的标准。 - Stability AI坚持开放和负责任的AI实践，在模型的训练、测试、部署等各个阶段采取合理措施防止模型被恶意滥用。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。 BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。 BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。 BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

人工智能初创公司 Runway 发布文本到视频模型 Gen-2

人工智能初创公司 Runway 发布文本到视频模型 Gen-2 Gen-2 支持从文本到视频、图像到视频、文本+图像到视频各种场景，可以从几句用户提示中生成简短的视频片段。用户可通过 Runway 的加入 Gen-2 候补名单。 Runway 同时协助开发了开源图像生成模型 Stable Diffusion，比起拥有巨大资源的科技巨头，Runway 只是一个45人团队的人工智能初创公司，这也反映着初创公司在生成式AI上的潜力有多么惊人。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人