Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft，可帮助用户通过文本提示创作音乐和音频。根据 Meta 官方介绍，AudioCraft 包含了三个核心组件： 1、MusicGen：使用 Meta 拥有 / 特别授权的音乐进行训练，根据文本提示生成音乐。 2、AudioGen：使用公共音效进行训练生成音频或扩展现有音频，后续还可生成环境音效（如狗叫、汽车鸣笛、木地板上的脚步声）。 3、EnCodec（改进版）：基于神经网络的音频压缩解码器，可生成更高质量的音乐并减少人工痕迹，或对音频文件进行无损压缩。该工具经过开源之后，相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频，而且易于使用，能够为音乐家和声音设计师“提供灵感”，帮助他们快速集思广益，并“以新的方式迭代他们的作品”。 AudioCraft 项目地址：、

在Telegram中查看

相关推荐

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft，可帮助用户创作音乐和音频美东时间周三，Meta发布了一款开源人工智能（AI）工具，该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示，这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉，可用文本内容生成高质量、逼真的音频和音乐。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Meta开源了AI 音频生成工具 AudioCraft，包含 3 个模型：

Meta开源了AI 音频生成工具 AudioCraft，包含 3 个模型： - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

Meta公司发布开源AI作曲项目 MusicGen

Meta公司发布开源AI作曲项目 MusicGen Meta的MusicGen可以根据文本提示生成短小的音乐片段，还可以选择性地与现有的旋律对齐。和大多数当前的语言模型一样，MusicGen基于Transformer模型。就像语言模型预测句子中的下一个字符一样，MusicGen预测音乐作品中的下一个部分。研究人员使用Meta的EnCodec音频分词器将音频数据分解成更小的组件。作为一个单阶段模型，它可以并行处理标记，因此MusicGen快速而高效。团队使用了20,000小时的授权音乐进行训练。特别是他们依赖于一个内部数据集，其中包括10,000首高质量的音乐曲目，以及来自Shutterstock和Pond5的音乐数据。

Amphion 是一个开源的音频、音乐和语音生成工具包。

Amphion 是一个开源的音频、音乐和语音生成工具包。它包括文本转语音、语音转换、文本转音乐等任务的工具。与现有的其他开源文本转语音系统相比，Amphion具有更高的性能。 #tools

Meta 开源全新音频压缩技术 EnCodec，比 MP3 小 10 倍

Meta 开源全新音频压缩技术 EnCodec，比 MP3 小 10 倍 Meta 旗下基础人工智能研究 (FAIR) 团队在 AI 驱动的音频超压缩领域取得了成功，构建了一个由三部分组成的系统，并对其进行端到端训练，以将音频数据压缩到目标大小，然后可以使用神经网络对这些数据进行解码。与 64 kbps 的 MP3 相比，Meta 的新技术 EnCodec 实现了大约 10 倍的压缩率，而且没有质量损失。 Meta 表示，该技术尚未涵盖视频，但目前已在计划中，其目标是改进视频会议、流媒体电影以及在 VR 中与朋友玩游戏等的音频体验。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Pandrator - 开源高质量文本转语音工具

Pandrator - 开源高质量文本转语音工具 ▎软件功能：文本转语音 ▎软件平台：#Windows ▎软件介绍：一种工具，旨在将文本、PDF、EPUB 和 SRT 文件转换为多种语言的语音音频，包括语音克隆、LLM 基于文本的预处理以及通过将同步输出与视频的原始音轨混合来直接将生成的字幕音频保存到视频文件的能力。它利用 XTTS、Silero 和 VoiceCraft 模型进行文本到语音转换和语音克隆，并通过 RVC_CLI 进行增强，以提高质量和更好的语音克隆结果，并通过 NISQA 进行音频质量评估。此外，它还集成了 Text Generation Webui 的 API，用于基于本地LLM的文本预处理，从而在音频生成之前实现广泛的文本操作。 ▎软件下载：点击下载 #软件 #开源 #AI #TTS

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人