ElevenLabs 已经提供了由 AI 生成的人声和音乐。现在,它还允许人们为播客、电影或游戏创建音效。新的音效工具可以根据用

ElevenLabs 已经提供了由 AI 生成的人声和音乐。现在,它还允许人们为播客、电影或游戏创建音效。新的音效工具可以根据用户提示生成最长 22 秒的声音,这些声音可以与公司的语音和音乐平台结合使用,并为用户提供至少四种可下载的音频剪辑选项。 该公司表示,他们与股票媒体平台 Shutterstock 合作,建立了一个音频库,并用这些音频片段来训练他们的模型。Shutterstock 已经将其内容库授权给许多 AI 公司,包括 OpenAI、Meta 和 Google。 这些音效是免费使用的,但付费用户可以用生成的音频片段进行商业用途,而免费用户“必须在标题中注明‘’”。ElevenLabs 用户在编写提示时有字符数限制,免费用户每月有 10,000 字符的额度。对于音效,ElevenLabs 在其常见问题页面上表示,如果用户自己设置音频片段的时长,将从配额中每秒扣除 40 个字符。如果使用默认的音频时长,每次提示请求将扣除 200 个字符。 标签: #ElevenLabs #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft,可帮助用户通过文本提示创作音乐和音频。 根据 Meta 官方介绍,AudioCraft 包含了三个核心组件: 1、MusicGen:使用 Meta 拥有 / 特别授权的音乐进行训练,根据文本提示生成音乐。 2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。 3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。 该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。 AudioCraft 项目地址: 、

封面图片

Meta公司发布开源AI作曲项目 MusicGen

Meta公司发布开源AI作曲项目 MusicGen Meta的MusicGen可以根据文本提示生成短小的音乐片段,还可以选择性地与现有的旋律对齐。 和大多数当前的语言模型一样,MusicGen基于Transformer模型。就像语言模型预测句子中的下一个字符一样,MusicGen预测音乐作品中的下一个部分。 研究人员使用Meta的EnCodec音频分词器将音频数据分解成更小的组件。作为一个单阶段模型,它可以并行处理标记,因此MusicGen快速而高效。 团队使用了20,000小时的授权音乐进行训练。特别是他们依赖于一个内部数据集,其中包括10,000首高质量的音乐曲目,以及来自Shutterstock和Pond5的音乐数据。

封面图片

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 ,可以基于用户输入的提示词,生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景

:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

封面图片

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频 美东时间周三,Meta发布了一款开源人工智能(AI)工具 ,该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示,这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

Stability AI发布免费音频生成工具 可创作AI歌曲 而Stable Audio 2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同,Stability AI通过其网站免费向公众提供Stable Audio,未来将很快提供API接口。Stability AI表示,Stable Audio 2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩Stable Audio 2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,Stable Audio 2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说,Stable Audio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。Stability AI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本,Stability AI说它与Audible Magic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果Stable Audio 2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人