ImageBind+StableDiffusion相结合，能从任意内容生成图像的工具。利用统一潜空间和StableDiffusion技术实现图像生成，无需进行训练。可与Diffusers集成，并提供在线演示和HuggingfaceGradio的演示。支持的任务包括从音频、音频+文本、音频+图像、图像和文本生成图像#工具

中国网信办将开始监管“深度合成”技术，如人工智能图像、音频和文本生成软件

中国网信办将开始监管“深度合成”技术，如人工智能图像、音频和文本生成软件北京的互联网监管机构中国国家互联网信息办公室将从周二开始实施监管——针对所谓的“深度合成”技术，包括人工智能图像、音频和文本生成软件——这标志着世界上首次由一个主要监管机构全面尝试遏制人工智能发展中最具爆炸性和争议性的领域之一。新法规规定，禁止使用人工智能生成的内容来传播“假新闻”，或被认为对经济或国家安全具有破坏性的信息——定义广泛的类别给了当局很大的解释空间。他们还要求深度合成技术的提供者，包括公司、研究机构和个人，在可能被误解为真实的图像、视频和文本时，应将它们突出标记为合成或编辑过的。美国立法者试图解决deepfakes的扩散和潜在滥用问题，但这些努力因言论自由问题而停滞不前。斯坦福大学研究学者格雷厄姆·韦伯斯特(GrahamWebster)表示，中国的监管尝试表明，北京在很大程度上受到围绕该技术的全球辩论的影响。他负责追踪中国数字政策发展的DigiChina项目。“中国正在向世界学习这些事情的潜在影响，但它正在以更快的速度推进强制性规则和执法，”他说。“世界各地的人们都应该观察会发生什么。——

Meta开源了AI音频生成工具AudioCraft，包含3个模型：-MusicGen文本生成音乐-AudioGen文本生成音频-EnCodec损失更少的音频压缩MusicGen在HuggingFace上的

人工智能根据文本描述生成图像-CogView#实用工具#趣站#人工智能#文本生成图像https://www.ahhhhfs.com/32911/

StableDiffusion在线免费可以从文本描述中生成图像点击获取

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

StabilityAI推出StableAudio，基于文本生成最长90秒音频StabilityAI公司近日推出StableAudio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版StableAudio可以生成最长20秒的音乐片段，而用户在购买Pro订阅之后，可以生成最长90秒的音频内容。StabilityAI公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用StableAudio工具，帮助生成新的内容，并期待能够激发无限的创造力”。https://stability.ai/blog/stable-audio-using-ai-to-generate-music——

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。

：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。BuboGPT是由字节跳动开发的大型语言模型，能够处理多模态输入，包括文本、图像和音频，并具有将其响应与视觉对象相对应的独特能力。它可以进行细粒度的视觉理解，音频理解，以及对齐的音频-图像理解和任意音频-图像理解。BuboGPT的架构是通过学习一个共享的语义空间并进一步探索不同视觉对象和不同模态之间的细粒度关系，从而实现了包括图像、音频和文本在内的多模态理解。它的训练过程包括两个阶段：单模态预训练和多模态指令调整。在单模态预训练阶段，对应的模态Q-Former和线性投影层在大量的模态-文本配对数据上进行训练。在多模态指令调整阶段，使用高质量的多模态指令跟踪数据集对线性投影层进行微调。当你给它一个图像和一段描述图像的文本时，BuboGPT能够理解文本和图像之间的关系，并生成一个与图像内容相对应的响应。这种能力使得BuboGPT可以在对话中提供更丰富、更具上下文的回答。音频理解能力：当你给它一个音频剪辑时，它可以生成一个详细的描述，涵盖音频中的所有声音部分，甚至包括一些人类可能无法注意到的短暂音频片段。BuboGPT还可以处理匹配的音频-图像对，进行声音定位。例如，如果你给它一个场景的图片和场景中发生的声音，它可以理解声音和图像之间的关系，并生成一个描述声音来源位置的响应。即使音频和图像之间没有直接的关系。在这种情况下，BuboGPT可以生成一个高质量的响应，描述音频和图像之间的可能关系。

相关推荐

中国网信办将开始监管“深度合成”技术，如人工智能图像、音频和文本生成软件

Meta开源了AI音频生成工具AudioCraft，包含3个模型：-MusicGen文本生成音乐-AudioGen文本生成音频-EnCodec损失更少的音频压缩MusicGen在HuggingFace上的

人工智能根据文本描述生成图像-CogView#实用工具#趣站#人工智能#文本生成图像https://www.ahhhhfs.com/32911/

StableDiffusion在线免费可以从文本描述中生成图像点击获取

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

BuboGPT：可以理解图像和音频的内容，并将这些理解与文本输入和输出相结合。