Meta 开源了 AudioCraft,包含两个模型

Meta 开源了 AudioCraft,包含两个模型 MusicGen:生成音乐,音乐家可以用文本来描述一首曲子的乐器和风格,以探索最佳的表现形式 AudioGen:生成音效,独立游戏开发者可以低成本地添加音效和环境噪音

相关推荐

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 ,可以基于用户输入的提示词,生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft,可帮助用户通过文本提示创作音乐和音频。 根据 Meta 官方介绍,AudioCraft 包含了三个核心组件: 1、MusicGen:使用 Meta 拥有 / 特别授权的音乐进行训练,根据文本提示生成音乐。 2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。 3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。 该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。 AudioCraft 项目地址: 、

封面图片

Bark,一个模拟声音的开源AI项目

Bark,一个模拟声音的开源AI项目 可以生成所有类型的音频,并且基本上看不出与真实语音、音乐间的区别。这些音频包括音乐、背景噪音和一些简单的音效。是的,你没听错,你甚至可以拿它来生成音乐。该模型还可以产生非语言交流,如笑、叹息和哭泣。 Bark 支持各种语言,开箱即用,并根据输入文本自动确定语言。当提示使用代码切换文本时,Bark 将尝试使用相应语言的本地口音。英语质量目前是最好的,估计其他语言会随着扩展而进一步提高。 #AI 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Stability AI 发布用于生成声音和歌曲的开放式AI模型

Stability AI 发布用于生成声音和歌曲的开放式AI模型 该模型使用来自免费音乐库 FreeSound 和免费音乐档案馆的约 486,000 个样本进行训练。Stability AI 公司称,该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素",也可用于"编辑"现有歌曲或将一首歌的风格(如流畅爵士乐)应用到另一首歌中。Stability AI公司在其公司博客上发表的一篇文章中写道:"此次开源发布的一个主要好处是,用户可以根据自己的自定义音频数据对模型进行微调。例如,鼓手可以在自己的鼓声录音样本上进行微调,生成新的节拍。"不过,Stable Audio Open 也有其局限性。它不能生成完整的歌曲、旋律或人声,至少不能生成好的歌曲、旋律或人声。Stability AI 表示,它并没有为此进行优化,并建议希望获得这些功能的用户选择该公司的高级 Stable Audio 服务。Stable Audio Open 也不能用于商业用途,其服务条款禁止这样做。此外,它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同,Stability AI 将这些偏差归咎于训练数据。"数据源可能缺乏多样性,所有文化在数据集中都不具有同等代表性,"Stability AI 公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司(Stability AI)长期以来一直在努力扭转业务颓势,最近,该公司负责生成音频的副总裁埃德-牛顿-雷克斯(Ed Newton-Rex)因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职,从而引发争议。Stable Audio Open 似乎试图扭转这种说法,同时不着痕迹地宣传 Stability AI 的付费产品。随着包括 Stability 音乐生成器在内的音乐生成器越来越受欢迎,版权以及一些生成器创建者可能滥用版权的方式正成为人们关注的焦点。5 月,代表比利-乔尔(Billy Joel)、Doja Cat 和 Lil Nas X 等艺术家的索尼音乐公司致函700 家人工智能公司,警告不要"未经授权使用"其内容来训练音频生成器。今年 3 月,美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。 ... PC版: 手机版:

封面图片

[实践] Comfyui 官方又对 Stable Cascade进行了更新,原来需要下载 7 个模型现在开源社区将其整合为了两个

[实践] Comfyui 官方又对 Stable Cascade进行了更新,原来需要下载 7 个模型现在开源社区将其整合为了两个,只需要选择 C 阶段和 B 阶段的模型文件就行。 同时Comfyui官方还放出了多种Stable Cascade玩法的示例工作流,包括文生图、图生图、图片融合。这次更新之后用合并的模型生成图片质量和美观度上都很不错,我都是直接用的 Midjourney的提示词。 就是还有个问题,生成的图片都有伪影,这个比较离谱,非常影响画面效果。希望过段时间可以修复一下。 工作流及模型下载:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人