:基于文本条件的扩散概率模型,能生成高保真音频,适用于文本到音频的生成任务,提供预训练模型和开源实现

None

相关推荐

封面图片

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium Stable Diffusion 系列文本生成图形模型开发商 Stability AI 今天宣布基于 SD3 推出了新版本 SD3 Medium 版,该版本尺寸体积非常小只有 2B 参数,因此适合在消费级笔记本电脑、台式机和企业级 GPU 上运行。和之前的 SD 系列模型一样,SD3 Medium 版也是免费提供的,属于开放但非开源的模型,如果需要商业性使用则应当购买授权。Stable Diffusion 3 Medium 版具有以下特点:参数规模仅为 20 亿照片级真实感:克服手部和面部常见的瑕疵,无需复杂的工作流程即可生成高质量图像遵守复杂的提示词:可以理解涉及空间关系、构图元素、动作和风格的复杂提示词内容排版:在 Diffusion Transformer 架构的帮助下,大幅度改进生成文本内容时的伪影和拼写错误问题高效利用资源:占用的显存非常小,非常适合在消费级 PC 和笔记本电脑上运行并且不会降低性能微调:能够从小数据集中吸收细微的细节,因此也适合进行定制哪些消费级显卡 / 企业级显卡支持 SD3 Medium 版:Stability AI 与英伟达和 AMD 合作,在部分消费级和企业级显卡上优化 SD3 Medium 的推理,其中还为英伟达推出了特别版本。支持的英伟达显卡主要是 NVIDIA RTX 系列,Stability AI 利用 RTX 显卡和 TensorRT 来提升性能,其中 TensorRT 优化版本提供更好的性能,用户可以下载英伟达专版的 SD3 Medium。AMD 方面支持 AMD 最新的 APU、消费级 GPU 和米兰 300X 系列企业级 GPU,经过 AMD 优化后也可以使用 SD3 Medium,不过性能方面可能要比英伟达专版的要低些。从哪里获取 SD3 Medium 版:其中英伟达专版的 TensorRT 版 SD3 Medium 可以在这里下载: AMD 的通用版本可以在这里下载: ... PC版: 手机版:

封面图片

是一种多视角草图引导的文本到3D生成模型,能生成类似于多视角草图的高保真度3D对象,利用预训练2D扩散模型来优化神经辐射场(Ne

是一种多视角草图引导的文本到3D生成模型,能生成类似于多视角草图的高保真度3D对象,利用预训练2D扩散模型来优化神经辐射场(NeRF)表示的3D场景,提出一种新的同步生成和重构方法来有效优化NeRF。 实验结果表明,Sketch2NeRF能在细粒度草图控制和文本提示的高保真度方面实现3D一致的内容。在草图相似性和文本对齐方面,该方法达到了最先进的性能水平。

封面图片

Stability AI 推出 Stable Audio,基于文本生成最长 90 秒音频

Stability AI 推出 Stable Audio,基于文本生成最长 90 秒音频 Stability AI 公司近日推出 Stable Audio,可以基于用户输入的文本内容,自动生成音乐或者音频。免费版 Stable Audio 可以生成最长 20 秒的音乐片段,而用户在购买 Pro 订阅之后,可以生成最长 90 秒的音频内容。 Stability AI 公司首席执行官表示:“我们希望音乐爱好者和创意专业人士使用 Stable Audio 工具,帮助生成新的内容,并期待能够激发无限的创造力”。

封面图片

AI生成模型合集AI文本生成图像模型

AI生成模型合集 AI文本生成图像模型 DALL-E 2:https://openai.com/product/dall-e-2 Stable Diffusion:https://stablediffusionweb.com/ Craiyon:https://www.craiyon.com/ Jasper:https://www.jasper.ai/ Imagen:https://imagen.research.google/ Midjourney: 网站:https://midjourney.com/ 教程:https://www.uisdc.com/midjourney 关键词:https://github.com/willwulfken/MidJourney-Styles-and-Keywords-Reference NightCafe:https://nightcafe.studio/ GauGAN2: http://gaugan.org/gaugan2/ https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/ WOMBO :https://www.wombo.ai/ pixray/text2image:https://replicate.com/pixray/text2image neural.love:https://neural.love/ AI文本生成视频模型 Runway:https://runwayml.com/ Fliki:https://fliki.ai/ Synthesia:https://www.synthesia.io/ Meta AI:https://ai.facebook.com/ Google AI:https://ai.google/ Phenaki:https://phenaki.video/ AI文本生成音频模型 Play.ht:https://play.ht/ Murf:https://murf.ai/ Resemble AI:https://www.resemble.ai/ WellSaid:https://wellsaidlabs.com/ Descript:https://www.descript.com/ AI文本生成文本模型 Simplified:https://simplified.com/ Jasper:https://www.jasper.ai/ Frase:https://www.frase.io/ EleutherAI:https://www.eleuther.ai/ AI21 Labs:https://www.ai21.com/ Hub Spot:https://www.hubspot.com/ InferKit:https://inferkit.com/ GooseAI:https://goose.ai/ Research AI:https://researchai.co/ Writesonic:https://writesonic.com/ Cohere:https://cohere.ai/ Chibi:https://chibi.ai/ Ideas AI:https://ideasai.com/ Copysmith:https://app.copysmith.ai/ Flowrite:https://www.flowrite.com/ Nichesss:https://nichesss.com/ Sudowrite:https://www.sudowrite.com/ ideasbyai:https://ideasby.ai/ TextCortex:https://textcortex.com/ OpenAI GPT-3:https://beta.openai.com/playground Blog Idea Generator:https://www.usetopic.com/blog-idea-generator AI文本生成Motion模型 Tree:https://tree.industries/ MDM: Human Motion Diffusion Model: https://guytevet.github.io/mdm-page/ AI文本生成代码模型 replitGhostwriter code:https://replit.com/site/ghostwriter Github copilot:https://github.com/features/copilot AI文本生成NFT模型 LensAI:https://www.lens.xyz/ AI文本生成3D模型 DreamFusion:https://dreamfusion3d.github.io/ CLIP-Mesh:https://www.nasir.lol/clipmesh GET3D:https://nv-tlabs.github.io/GET3D/ AI音频生成文本模型 Descript:https://www.descript.com/ AssemblyAI:https://www.assemblyai.com/ Whisper (OpenAI):https://openai.com/blog/whisper/ AI音频生成音频模型 AudioLM: https://google-research.github.io/seanet/audiolm/examples/ Voicemod:https://www.voicemod.net/ AI-Brain生成文本模型 speech from brain(metaAI): https://ai.facebook.com/blog/ai-speech-brain-activity/ Non-invasive brain recordings: https://www.biorxiv.org/content/10.1101/2022.09.29.509744v1 AI图像生成文本模型 Neural.love:https://neural.love/ GPT-3 x Image Captions:https://www.auxiliary.tools #实用资源收集 #AI#合集

封面图片

Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力: 最先进的扩散管道,只需几行代码即可在推理中运行。 可以互换使用的各种噪声调度程序,用于在推理中进行首选速度与质量权衡。 多种类型的模型,例如 UNet,可以用作端到端扩散系统中的构建块。 训练示例以展示如何训练最流行的扩散模型。 推理示例,展示如何为 image2image、in-painting 等高级任务创建自定义管道

封面图片

在线文本适用于PC之间互相用来文本分享

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人