用你自己的声音说外语：跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语：跨语言神经编解码器语言模型VALL-EX微软亚洲研究院发布VALL-E的扩展VALL-EX，它可以通过一个几秒的源语音片段来生成目标语言的语音，同时保留说话者的声音、情感和声学环境。VALL-EX不需要说话人的跨语言语音进行训练即可执行各种语音生成任务，例如跨语言文本到语音、语音合成和语音到语音翻译。VALL-E基于Meta在2022年10月开源的EnCodec技术之上，同时在Meta组建的LibriLight音频库进行训练，音频库包含了来自7000多名演讲者的6万小时英语演讲，大部分来自LibriVox公共领域的有声读物。中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。投稿：@ZaiHuabot频道：@TestFlightCN

在Telegram中查看

相关推荐

Meta AI驱动的音频编解码器比MP3压缩率高10倍

MetaAI驱动的音频编解码器比MP3压缩率高10倍Meta公司于10月25日在一篇题为"高保真神经音频压缩"的论文中首次介绍了这项技术，论文作者是Meta公司的人工智能研究员AlexandreDéfossez、JadeCopet、GabrielSynnaeve和YossiAdi。Meta公司还在其专门介绍EnCodec的博客上总结了这项研究。Meta公司将其方法描述为一个由三部分组成的系统，经过训练可将音频压缩到所需的目标大小。首先，编码器将未压缩的数据转换为较低帧率的"潜空间"表示。然后，"量化器"将该表示法压缩到目标大小，同时跟踪最重要的信息，这些信息随后将被用于重建原始信号。(这个压缩信号将通过网络发送或保存在磁盘上）。最后，解码器使用一个神经网络在单个CPU上将压缩的数据实时地转变成音频。一个方框图说明Meta的EnCodec压缩是如何工作的Meta对鉴别器的使用被证明是创造一种尽可能多地压缩音频的方法的关键，同时又不失去信号的关键元素，使其与众不同并可被识别。"有损压缩的关键是识别人类无法察觉的变化，因为在低比特率下不可能实现完美的重建。为了做到这一点，我们使用鉴别器来提高生成的样本的感知质量。这就形成了一个猫捉老鼠的游戏，鉴别器的工作就是区分真实的样本和重建的样本。压缩模型试图通过推动重建的样本与原始样本在感知上更加相似来生成样本以欺骗鉴别器"。值得注意的是，使用神经网络进行音频压缩和解压远非新鲜事，特别是用于语音压缩时，但Meta公司的研究人员声称他们是第一个将该技术应用于48kHz立体声音频（比CD的44.1kHz采样率略好）的工作小组，这是在互联网上传播的最典型的音乐文件。至于应用方面，Meta公司表示，这种由人工智能驱动的"超压缩音频"可以在恶劣的网络条件下支持"更快、更优质的通话"。当然，作为Meta公司，研究人员还提到了EnCodec的元数据影响，说该技术最终可以提供"丰富的元数据体验，而不需要大幅提高带宽"。除此之外，也许有一天我们还能从它那里得到更小的音乐音频文件。目前，Meta公司的新技术仍处于研究阶段，但它指向一个高质量音频可以使用更少带宽的未来，这对流媒体造成网络负担过重的移动宽带供应商来说是个好消息。...PC版：https://www.cnbeta.com.tw/articles/soft/1331655.htm手机版：https://m.cnbeta.com.tw/view/1331655.htm

高通推出 aptX Lossless 蓝牙音频编解码器：蓝牙能听无损 CD 音质了

高通推出aptXLossless蓝牙音频编解码器：蓝牙能听无损CD音质了高通aptXLossless是第一个蓝牙音频无损编解码器，它可以通过蓝牙精确传输CD质量（16bit/44.1kHz）的音频。压缩过程会将CD的1.4Mbps比特率纳入更有限的1Mbps带宽。亦可以用于传输24bit/96kHz有损压缩音频流。（）比SONYLDAC的990kbps要高一丁点

Meta推出新AI模型可翻译近百种语言

Meta推出新AI模型可翻译近百种语言Facebook的母公司MetaPlatforms推出一款人工智能模型，能够翻译和转录数十种语言的语音，是实现跨语言实时交流工具的潜在基础。路透社报道，Meta星期二在一篇博客文章中表示，其SeamlessM4T模型可以支持近100种语言的文本和语音翻译，以及35种语言的语音到语音翻译。Meta总裁扎克伯格说，他设想这样的工具能够在元宇宙中促进来自全球各地用户之间的互动。博客文章中说，Meta将这个模型提供给公众用于非商业用途。Meta今年推出了一系列的AI模型，其中大部分是免费的。扎克伯格称，开放的AI生态系统对Meta更有利，因为公司通过有效的众包方式为其社交平台创建面向消费者的工具，比对模型的访问收费，获益更多。对于SeamlessM4T模型，Meta的研究人员在一篇研究论文中表示，他们从约400万小时的“原始音频”中收集了音频训练数据。这些音频源自公开可用的网络数据库，但未具体指明是哪个库。研究论文说，文本数据来自于去年创建的数据集，这些数据集从维基百科和相关网站中提取内容。

谷歌发布 Lyra V2 超低比特率语音编解码器，可在 56kbps 网速下语音聊天

谷歌发布LyraV2超低比特率语音编解码器，可在56kbps网速下语音聊天谷歌宣布了用于低比特率的Lyra语音编解码器，与开放的AV1编解码器相结合，可以在56kbps的网速下实现语音聊天。Lyra利用机器学习和其它技术进行极低比特率的语音压缩，甚至可以在3kbps的速度下工作。谷歌去年开放了Lyra的代码。来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

微软确认Windows 11 24H2弃用杜比数字AC-3编解码器

微软确认Windows1124H2弃用杜比数字AC-3编解码器安装Windows1124H2并尝试播放AC-3编解码器中的旧媒体内容时，媒体播放器将无法打开。这包括Windows11的现代媒体播放器和其他能够播放音频的内置应用程序。默认情况下，Windows1124H2将不再包含AC-3编解码器（通常称为杜比数字）。微软在本周早些时候悄悄发布的一份支持文档中证实了这一变化。该文件指出，Windows将继续支持FLAC或ALAC等流行的编解码器，但"从24H2版开始，Windows不再包含AC-3编解码器"。"在Windows11版本24H2之前的Windows版本中，包含AC-3编解码器。从Windows11版本24H2开始，AC-3编解码器不再包含在Windows中。不过，微软证实一些设备可能会继续使用AC-3编解码器，但这仅限于制造商选择预装的情况。例如，如果OEM是杜比公司的紧密合作伙伴，就可能预装AC-3编解码器。手动添加AC-3编解码器后，您仍然可以在本地应用程序中播放使用AC-3音频编解码器（杜比数字）编码的文件。AC-3编解码器（杜比数字）于上世纪90年代问世，目前正逐渐被淘汰，因此这一举措并不令人惊讶。所有流媒体平台和媒体公司在编码新媒体文件时都已停止使用该编解码器。不过，你可能还会遇到一些以AC-3编解码器编码的老文件，因为这种编解码器曾经在音频市场上占有重要地位。在这种情况下，您将无法使用Windows11上的原生应用程序播放音频文件，但您可以随时切换到更好的替代程序，如开源MPV播放器。微软表示，它致力于支持流行的现代编解码器。该公司继续通过MicrosoftStore中的"包"提供一些编解码器。这些编解码器包包括MPEG-2VideoExtension、HEVCVideoExtension、VP9VideoExtension、AV1VideoExtension和WebMediaExtension。该公司还澄清说，它不会取消对旧版本Windows中AC-3编解码器的支持。除AC-3编解码器外，Windows1124H2还将移除Cortana、WordPad、StepsRecorder和其他一些传统服务。该更新将于9月/10月开始在现有PC上推出。...PC版：https://www.cnbeta.com.tw/articles/soft/1432729.htm手机版：https://m.cnbeta.com.tw/view/1432729.htm

Meta推出新的AI模型可转录和翻译近百种语言

Meta推出新的AI模型可转录和翻译近百种语言SeamlessM4T是根据知识共享许可（CC）协议4.0发布的，允许研究人员对其进行迭代。除了SeamlessM4T，Meta还发布了其开放翻译数据集SeamlessAlign的元数据。Meta表示：“建立一个通用语言翻译器，例如像《银河系漫游指南》中虚构的巴别鱼那样，是具有挑战性的，因为现有的语音对语音和语音对文本系统只覆盖了世界语言的一小部分。”《银河系漫游指南》是由英国作家道格拉斯·亚当斯所写的一系列科幻小说，而巴别鱼是这部作品所创造的一种神奇生物，体型小到足以放进人的耳朵，靠接受脑电波为生。如果将巴别鱼放到耳朵里，人们可以理解任何语言。对于SeamlessM4T模型，Meta研究人员在一篇研究论文中表示，他们从400万小时的原始音频中收集了音频训练数据，这些音频来自一个公开的抓取网络数据存储库，但没有说明是哪个存储库。研究报告称，文本数据来自去年创建的数据集，这些数据集从维基百科和相关网站上提取了内容。Meta表示，SeamlessM4T代表了一个重大突破，因为这个模型可以一次性完成整个翻译任务，而不像其他大型翻译模型那样，将翻译分成不同的系统。SeamlessM4T建立在Meta之前的翻译模型之上。Meta去年发布了支持200种语言的文本到文本的翻译模型。它开发了用于多语言语音到语音翻译的数据集，以及用于语音识别的大规模多语言语音。Meta去年展示了它的通用语音翻译器，可将闽南语转化为英语。...PC版：https://www.cnbeta.com.tw/articles/soft/1378781.htm手机版：https://m.cnbeta.com.tw/view/1378781.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人