普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox

普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox Meta 继推出 ImageBind 之后,于今天再次推出了全新的生成式 AI 模型 。该模型帮助创作者执行音频编辑、采样和风格化等语音生成任务,即便是普通用户也能轻松上手。 Meta 在介绍 Voicebox 模型时表示,视障人士可以听到好友的回复信息、普通用户可以用自己的语调、语气来说外语。 AI 模型本身可以生成高质量的音频剪辑,消除汽车喇叭等不必要的背景噪音,同时保留音频的内容和风格,同时使用多种语言,以六种语言生成语音。该模型的未来发展包括在元宇宙游戏中为视觉助理或非玩家角色提供自然的声音。 Meta 还比较了 Voicebox 和 Vall-E、YourTTS 等其它音频 AI 模型,表明 Voicebox 更先进,在比较单词错误率和样式相似性时优于两种模型。 Voicebox 仍在进行中,尚未向公众开放。Meta 表示,它认识到这种 AI 可能会造成的潜在危害,并且正在研究一种有效的方法来区分 Voicebox 生成的真实语音和音频。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox - IT之家

封面图片

Meta推出新AI模型 可翻译近百种语言

Meta推出新AI模型 可翻译近百种语言 Facebook的母公司Meta Platforms推出一款人工智能模型,能够翻译和转录数十种语言的语音,是实现跨语言实时交流工具的潜在基础。 路透社报道,Meta星期二在一篇博客文章中表示,其SeamlessM4T模型可以支持近100种语言的文本和语音翻译,以及35种语言的语音到语音翻译。 Meta总裁扎克伯格说,他设想这样的工具能够在元宇宙中促进来自全球各地用户之间的互动。 博客文章中说,Meta将这个模型提供给公众用于非商业用途。 Meta今年推出了一系列的AI模型,其中大部分是免费的。扎克伯格称,开放的AI生态系统对Meta更有利,因为公司通过有效的众包方式为其社交平台创建面向消费者的工具,比对模型的访问收费,获益更多。 对于SeamlessM4T模型,Meta的研究人员在一篇研究论文中表示,他们从约400万小时的“原始音频”中收集了音频训练数据。这些音频源自公开可用的网络数据库,但未具体指明是哪个库。 研究论文说,文本数据来自于去年创建的数据集,这些数据集从维基百科和相关网站中提取内容。

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

Meta前天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括

Meta前天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括 基于上下文的文本转语音合成 跨语言风格转换 跨语言风格转换 多样化的语音采样 详细的功能介绍和原理见评 ||

封面图片

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。 Meta周二发布了 ,这是一个新的多模式和多语言 AI ​​翻译模型,可以让说不同语言的人更有效地进行交流。 M4T 可以进行多达 100 种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。 SeamlessM4T将使用研究许可证公开发布,以便研究人员和开发人员在此基础上开展工作。 Meta还将公布 SeamlessAlign 的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270,000 小时。 随着时间的推移,Meta将把这些翻译和转录方面的 AI 进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。 、

封面图片

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频 美东时间周三,Meta发布了一款开源人工智能(AI)工具 ,该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示,这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人