文字可生成音乐！Meta发布的AI工具AudioCraft有何不同之处？

文字可生成音乐！Meta发布的AI工具AudioCraft有何不同之处？（来源：Meta官网）Meta在官网介绍称，MusicGen接受过Meta拥有的和特别授权的音乐训练，可以从文本提示生成音乐，而AudioGen接受过公共音效训练，可从文本提示生成音频，比如模拟狗叫或脚步声；再加上EnCodec编解码器的改进版本，用户可以更高效率地生成更高质量的音乐。在6月初，Meta推出了名为MusicGen的开源人工智能模型，这是一种深度学习语言模型，可以根据文本提示生成音乐。Meta的EnCodec是一个基于深度学习的音频编解码器，由人工智能驱动，可以在音频质量没有损失的前提下，将音频压缩到比MP3格式还要小10倍的程度。AudioGen则是一个来自Meta和耶路撒冷希伯来大学的研究团队的人工智能模型，可以通过输入文本来生成音频，亦可以扩展现有音频。AudioGen可以区分不同的声音对象，并在声学上将它们分开。Meta还演示了MusicGen和AudioGen工作的流程图，并表示将让这些模型开源，让研究人员和从业人员可以用自己的数据集训练适合自己的模型，并帮助推进人工智能生成音频和音乐领域的发展。与其他音乐模型相比，AudioCraft系列模型能够生成长期一致的高质量音乐和音频，还简化了音频生成模型的整体设计，使得该工具简单易用。Meta相信它的模型可以引领新一波歌曲潮流，就像合成器改变音乐一样。“我们认为MusicGen可以变成一种新型的乐器，就像最初出现的合成器一样。”当然，Meta也承认创作复杂而又优秀的音乐还是比较困难的，因此它选择将AudioCraft开源，以使用于训练它的数据多样化。今年早些时候，谷歌也发布了名为MusicLM的音乐生成模型，并于5月向上月向所有用户开放。除此之外，目前较为常见的音乐模型还有Riffusion、Mousai和Noise2Music等。...PC版：https://www.cnbeta.com.tw/articles/soft/1374669.htm手机版：https://m.cnbeta.com.tw/view/1374669.htm

在Telegram中查看

相关推荐

【Meta推出AI生成式音乐工具】

【Meta推出AI生成式音乐工具】2023年08月04日05点57分老不正经报道，Facebook和Instagram的母公司Meta推出了一套生成式人工智能模型，称为AudioCraft，目的是通过各种输入进行音乐创作。这套生成式人工智能工具包括MusicGen和AudioGen，它们通过基于文本的输入来创建新的音频，还有另一个名为EnCodec的工具，它可以用更少的音损生成更高质量的音乐。Meta在公告中提到，其MusicGen模型是用其拥有或专门许可的音乐进行训练的。此工具可与谷歌今年发布的类似工具MusicLM相媲美。

Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频

Meta发布开源AI工具AudioCraft，用户可通过文本提示创作音乐、音频Meta开源了一款生成式AI工具AudioCraft，可帮助用户通过文本提示创作音乐和音频。根据Meta官方介绍，AudioCraft包含了三个核心组件：1、MusicGen：使用Meta拥有/特别授权的音乐进行训练，根据文本提示生成音乐。2、AudioGen：使用公共音效进行训练生成音频或扩展现有音频，后续还可生成环境音效（如狗叫、汽车鸣笛、木地板上的脚步声）。3、EnCodec（改进版）：基于神经网络的音频压缩解码器，可生成更高质量的音乐并减少人工痕迹，或对音频文件进行无损压缩。该工具经过开源之后，相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称AudioCraft系列模型能够长期稳定地生成高质量音频，而且易于使用，能够为音乐家和声音设计师“提供灵感”，帮助他们快速集思广益，并“以新的方式迭代他们的作品”。AudioCraft项目地址：——、

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频美东时间周三，Meta发布了一款开源人工智能（AI）工具，该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示，这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。来源，https://github.com/facebookresearch/audiocraft来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

Stability AI 推出音乐/声音生成人工智能 Stable Audio

StabilityAI推出音乐/声音生成人工智能StableAudioStableAudio是一个扩散模型，用户只需描述关键词即可创建自己想要的音乐，每个账户每个月可以免费生成20首音频。StableAudio由音乐商AudioSparx提供的超80万音频文件训练而来(包含音乐、音效、单乐器主干和对应文本)。该模型在英伟达A100显卡上可以以44.1kHz采样率在不到一秒的时间内渲染95秒的音频。stableaudio.com投稿：@ZaiHuaBot频道：@TestFlightCN

谷歌为AI生成图像添加水印这项技术有何不同之处？

谷歌为AI生成图像添加水印这项技术有何不同之处？据悉，这项名为SynthID的技术将水印直接嵌入到Imagen生成的图像中，Imagen是谷歌最新的人工智能图像生成器之一。之后，无论裁剪、添加过滤器或改变颜色以及使用各种有损压缩方案，被添加到图像中的水印都将无法去除，以便于人们区分真实和虚假的内容。当然，SynthID工具也可以扫描传入的图像，从而评估图像是由Imagen生成的可能性。这项功能由人工智能实验室GoogleDeepMind的技术提供支持。不过，SynthID并不能保证水印可以万无一失地抵御极端图像处理，但它提供了一种有用的技术方法，使人们能够负责任地使用人工智能生成的内容。研究团队表示之后可能还会面向音频、视频和文本等模态推出类似的工具。谷歌声明称：“虽然这项技术并不完美，但我们的内部测试表明，它对许多常见的图像处理都是准确的。”该公司表示，目前SynthID只能在谷歌云平台上使用，主要针对使用VertexAI平台和Imagen图像生成器的客户，但SynthID技术将继续发展下去，并可能扩展到谷歌其他产品或第三方产品。谷歌DeepMind首席执行官DemisHassabis表示，SynthID是为了解决深度伪造等问题而开发的，在2024年美国即将举行大选的背景下，建立人工智能图像识别系统是非常重要的。随着深度伪造和编辑过的图像、视频变得越来越逼真，科技公司正在争先恐后地寻找一种可靠的方式来识别和标记被操纵的内容。在上个月底，美国白宫发布公告称，已与大型科技公司达成协议，为人工智能的开发设置更多防护措施，包括开发水印系统等，来控制误导信息的传播和其他风险。白宫表示，亚马逊、Anthropic、谷歌、Inflection、Meta、微软和OpenAI七家主要人工智能公司做出自愿承诺，以公众安全、系统网络安全和获取社会信任作为人工智能开发的三大原则。在SynthID发布之前，Truepic和RealityDefender等公司也在试图寻找解决方案，这也说明了这项工作的潜在风险和必要性。OpenAI公司今年早些时候推出了一个工具，旨在弄清文本是人类还是计算机写的。但该公司表示，他们检测人工智能生成的文字的能力是“不完美的”，需要继续进行优化。...PC版：https://www.cnbeta.com.tw/articles/soft/1380561.htm手机版：https://m.cnbeta.com.tw/view/1380561.htm

Meta 发布 AI 音乐模型 MusicGen

Meta发布AI音乐模型MusicGen近日，Meta以开源方式发布了AI音乐生成模型MusicGen的代码，该AI模型利用Transformer架构，可以根据文本和旋律提示创作音乐。与Riffusion、Mousai、MusicLM和Noise2Music等其他音乐模型相比，MusicGen在音乐与文本之间的匹配度以及作曲的可信度等客观和主观指标上表现得更加优异。频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人