Meta公司发布开源AI作曲项目 MusicGen

Meta公司发布开源AI作曲项目 MusicGen Meta的MusicGen可以根据文本提示生成短小的音乐片段,还可以选择性地与现有的旋律对齐。 和大多数当前的语言模型一样,MusicGen基于Transformer模型。就像语言模型预测句子中的下一个字符一样,MusicGen预测音乐作品中的下一个部分。 研究人员使用Meta的EnCodec音频分词器将音频数据分解成更小的组件。作为一个单阶段模型,它可以并行处理标记,因此MusicGen快速而高效。 团队使用了20,000小时的授权音乐进行训练。特别是他们依赖于一个内部数据集,其中包括10,000首高质量的音乐曲目,以及来自Shutterstock和Pond5的音乐数据。

相关推荐

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频 Meta 开源了一款生成式 AI 工具 AudioCraft,可帮助用户通过文本提示创作音乐和音频。 根据 Meta 官方介绍,AudioCraft 包含了三个核心组件: 1、MusicGen:使用 Meta 拥有 / 特别授权的音乐进行训练,根据文本提示生成音乐。 2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。 3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。 该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称 AudioCraft 系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。 AudioCraft 项目地址: 、

封面图片

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频

Meta发布开源AI工具AudioCraft,可帮助用户创作音乐和音频 美东时间周三,Meta发布了一款开源人工智能(AI)工具 ,该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示,这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

Meta 开源多感官人工智能模型

Meta 开源多感官人工智能模型 宣布了一个新的开源人工智能模型,该模型将多个数据流链接在一起,包括文本、音频、视觉数据、温度和运动读数。 该模型目前还只是一个研究项目,没有直接的消费者或实际应用,但它指向了生成式人工智能系统的未来,可以创造身临其境的多感官体验,并表明Meta在OpenAI和谷歌等竞争对手变得越来越隐秘的时候,仍在继续分享人工智能研究。 标签: #Meta #AI 频道: @GodlyNews1 投稿: @Godlynewsbot

封面图片

Meta 未来的多模 AI 模型将不提供给欧盟客户

Meta 未来的多模 AI 模型将不提供给欧盟客户 鉴于欧洲监管环境的不可预测性,Meta 未来的多模 AI 模型将不提供给欧盟客户。Meta 计划将新的多模模型集成到智能手机和 Meta Ray-Ban 智能眼镜等产品中,AI 模型将能对视频、音频、图像和文本进行推理。Meta 表示,这一决定还将意味着欧洲公司无法使用这些多模模型,尽管模型是在开放许可下发布的。它还可能阻止欧盟以外的公司在欧洲提供使用其新多模模型的产品和服务。Meta 计划发布 Llama 3 模型的更大规模的文本版本,它表示将会提供给欧盟的客户和公司。Meta 的问题在于如何在遵守 GDPR(数据保护法)的同时使用欧洲客户的数据训练模型。 via Solidot

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC MuAViC 源数据来自 TED 和 TEDx 超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。 MuAViC 支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta 的开源模型 AV-HuBERT 经过 MuAViC 训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人