Meta 开源全新音频压缩技术 EnCodec,比 MP3 小 10 倍

Meta开源全新音频压缩技术EnCodec,比MP3小10倍Meta旗下基础人工智能研究(FAIR)团队在AI驱动的音频超压缩领域取得了成功,构建了一个由三部分组成的系统,并对其进行端到端训练,以将音频数据压缩到目标大小,然后可以使用神经网络对这些数据进行解码。与64kbps的MP3相比,Meta的新技术EnCodec实现了大约10倍的压缩率,而且没有质量损失。Meta表示,该技术尚未涵盖视频,但目前已在计划中,其目标是改进视频会议、流媒体电影以及在VR中与朋友玩游戏等的音频体验。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

Meta AI驱动的音频编解码器比MP3压缩率高10倍

MetaAI驱动的音频编解码器比MP3压缩率高10倍Meta公司于10月25日在一篇题为"高保真神经音频压缩"的论文中首次介绍了这项技术,论文作者是Meta公司的人工智能研究员AlexandreDéfossez、JadeCopet、GabrielSynnaeve和YossiAdi。Meta公司还在其专门介绍EnCodec的博客上总结了这项研究。Meta公司将其方法描述为一个由三部分组成的系统,经过训练可将音频压缩到所需的目标大小。首先,编码器将未压缩的数据转换为较低帧率的"潜空间"表示。然后,"量化器"将该表示法压缩到目标大小,同时跟踪最重要的信息,这些信息随后将被用于重建原始信号。(这个压缩信号将通过网络发送或保存在磁盘上)。最后,解码器使用一个神经网络在单个CPU上将压缩的数据实时地转变成音频。一个方框图说明Meta的EnCodec压缩是如何工作的Meta对鉴别器的使用被证明是创造一种尽可能多地压缩音频的方法的关键,同时又不失去信号的关键元素,使其与众不同并可被识别。"有损压缩的关键是识别人类无法察觉的变化,因为在低比特率下不可能实现完美的重建。为了做到这一点,我们使用鉴别器来提高生成的样本的感知质量。这就形成了一个猫捉老鼠的游戏,鉴别器的工作就是区分真实的样本和重建的样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器"。值得注意的是,使用神经网络进行音频压缩和解压远非新鲜事,特别是用于语音压缩时,但Meta公司的研究人员声称他们是第一个将该技术应用于48kHz立体声音频(比CD的44.1kHz采样率略好)的工作小组,这是在互联网上传播的最典型的音乐文件。至于应用方面,Meta公司表示,这种由人工智能驱动的"超压缩音频"可以在恶劣的网络条件下支持"更快、更优质的通话"。当然,作为Meta公司,研究人员还提到了EnCodec的元数据影响,说该技术最终可以提供"丰富的元数据体验,而不需要大幅提高带宽"。除此之外,也许有一天我们还能从它那里得到更小的音乐音频文件。目前,Meta公司的新技术仍处于研究阶段,但它指向一个高质量音频可以使用更少带宽的未来,这对流媒体造成网络负担过重的移动宽带供应商来说是个好消息。...PC版:https://www.cnbeta.com.tw/articles/soft/1331655.htm手机版:https://m.cnbeta.com.tw/view/1331655.htm

封面图片

Meta 发布开源 AI 工具 AudioCraft,用户可通过文本提示创作音乐、音频

Meta发布开源AI工具AudioCraft,用户可通过文本提示创作音乐、音频Meta开源了一款生成式AI工具AudioCraft,可帮助用户通过文本提示创作音乐和音频。根据Meta官方介绍,AudioCraft包含了三个核心组件:1、MusicGen:使用Meta拥有/特别授权的音乐进行训练,根据文本提示生成音乐。2、AudioGen:使用公共音效进行训练生成音频或扩展现有音频,后续还可生成环境音效(如狗叫、汽车鸣笛、木地板上的脚步声)。3、EnCodec(改进版):基于神经网络的音频压缩解码器,可生成更高质量的音乐并减少人工痕迹,或对音频文件进行无损压缩。该工具经过开源之后,相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称AudioCraft系列模型能够长期稳定地生成高质量音频,而且易于使用,能够为音乐家和声音设计师“提供灵感”,帮助他们快速集思广益,并“以新的方式迭代他们的作品”。AudioCraft项目地址:——、

封面图片

浩然爸爸讲古诗词(85集全) 音频MP3

名称:浩然爸爸讲古诗词(85集全)音频MP3描述:这套音频课程涵盖了各个历史时期的优秀古诗词作品,浩然爸爸以亲子互动的形式,用符合诗歌韵味的朗读方式,为孩子们呈现了一幅幅美丽的诗歌画面。同时结合诗歌的背景和意境,进行了深入的赏析和解读,帮助孩子们更好地理解诗歌的内涵和意义。链接:https://pan.quark.cn/s/2930cb976895大小:1.0GB标签:#学习#古诗词#音频#少儿#浩然爸爸讲古诗词#quark频道:@yunpanshare群组:@yunpangroup

封面图片

文字可生成音乐!Meta发布的AI工具AudioCraft有何不同之处?

文字可生成音乐!Meta发布的AI工具AudioCraft有何不同之处?(来源:Meta官网)Meta在官网介绍称,MusicGen接受过Meta拥有的和特别授权的音乐训练,可以从文本提示生成音乐,而AudioGen接受过公共音效训练,可从文本提示生成音频,比如模拟狗叫或脚步声;再加上EnCodec编解码器的改进版本,用户可以更高效率地生成更高质量的音乐。在6月初,Meta推出了名为MusicGen的开源人工智能模型,这是一种深度学习语言模型,可以根据文本提示生成音乐。Meta的EnCodec是一个基于深度学习的音频编解码器,由人工智能驱动,可以在音频质量没有损失的前提下,将音频压缩到比MP3格式还要小10倍的程度。AudioGen则是一个来自Meta和耶路撒冷希伯来大学的研究团队的人工智能模型,可以通过输入文本来生成音频,亦可以扩展现有音频。AudioGen可以区分不同的声音对象,并在声学上将它们分开。Meta还演示了MusicGen和AudioGen工作的流程图,并表示将让这些模型开源,让研究人员和从业人员可以用自己的数据集训练适合自己的模型,并帮助推进人工智能生成音频和音乐领域的发展。与其他音乐模型相比,AudioCraft系列模型能够生成长期一致的高质量音乐和音频,还简化了音频生成模型的整体设计,使得该工具简单易用。Meta相信它的模型可以引领新一波歌曲潮流,就像合成器改变音乐一样。“我们认为MusicGen可以变成一种新型的乐器,就像最初出现的合成器一样。”当然,Meta也承认创作复杂而又优秀的音乐还是比较困难的,因此它选择将AudioCraft开源,以使用于训练它的数据多样化。今年早些时候,谷歌也发布了名为MusicLM的音乐生成模型,并于5月向上月向所有用户开放。除此之外,目前较为常见的音乐模型还有Riffusion、Mousai和Noise2Music等。...PC版:https://www.cnbeta.com.tw/articles/soft/1374669.htm手机版:https://m.cnbeta.com.tw/view/1374669.htm

封面图片

凯叔讲历史MP3音频【整年312期,636个音频,特殊处理,可分享】

资源名称:凯叔讲历史MP3音频【整年312期,636个音频,特殊处理,可分享】描述:凯叔、马爷重磅联手推出给孩子们定制的中国历史故事,讲述从夏商周到元明清的历史人物、历史事件。历史故事场景之生动、对话之丰富,前所未见,在讲述一个个历史故事的同时,以相应的文物故事相辅助,以文物印证历史,颠覆普通历史故事书写传统,给孩子呈现更鲜活、更直观的历史。让孩子身临其境学历史,提升思维、心智和格局......链接:https://www.aliyundrive.com/s/ePECPwKWfyT

封面图片

365中小学分级阅读课进阶版少年得到分级阅读【完结版】含音频MP3和讲义

名称:365中小学分级阅读课进阶版少年得到分级阅读【完结版】含音频MP3和讲义描述:通过分级阅读的方式,帮助中小学生逐步提高阅读能力和阅读兴趣,培养阅读习惯和阅读素养。链接:https://pan.quark.cn/s/10bdf0e12059大小:1.3GB标签:#学习#中小学#阅读#名著#quark频道:@yunpanshare群组:@yunpangroup

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人