用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X

用你自己的声音说外语:跨语言神经编解码器语言模型 VALL-E X 微软亚洲研究院发布 VALL-E 的扩展 VALL-E X,它可以通过一个几秒的源语音片段来生成目标语言的语音,同时保留说话者的声音、情感和声学环境。 VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。 VALL-E 基于 Meta 在2022年10月开源的 EnCodec 技术之上,同时在 Meta 组建的 LibriLight 音频库进行训练,音频库包含了来自7000多名演讲者的6万小时英语演讲,大部分来自 LibriVox 公共领域的有声读物。 中展示了"中文语音转英文语音"、"英文语音转中文语音"、"英语文本转中文语音"等各种场景。

相关推荐

封面图片

高通推出 aptX Lossless 蓝牙音频编解码器:蓝牙能听无损 CD 音质了

高通推出 aptX Lossless 蓝牙音频编解码器:蓝牙能听无损 CD 音质了 高通 aptX Lossless 是第一个蓝牙音频无损编解码器,它可以通过蓝牙精确传输CD质量(16bit/44.1kHz)的音频。压缩过程会将CD的1.4 Mbps比特率纳入更有限的1Mbps带宽。亦可以用于传输24bit/96kHz有损压缩音频流。() 比 SONY LDAC 的990kbps要高一丁点

封面图片

Meta推出新AI模型 可翻译近百种语言

Meta推出新AI模型 可翻译近百种语言 Facebook的母公司Meta Platforms推出一款人工智能模型,能够翻译和转录数十种语言的语音,是实现跨语言实时交流工具的潜在基础。 路透社报道,Meta星期二在一篇博客文章中表示,其SeamlessM4T模型可以支持近100种语言的文本和语音翻译,以及35种语言的语音到语音翻译。 Meta总裁扎克伯格说,他设想这样的工具能够在元宇宙中促进来自全球各地用户之间的互动。 博客文章中说,Meta将这个模型提供给公众用于非商业用途。 Meta今年推出了一系列的AI模型,其中大部分是免费的。扎克伯格称,开放的AI生态系统对Meta更有利,因为公司通过有效的众包方式为其社交平台创建面向消费者的工具,比对模型的访问收费,获益更多。 对于SeamlessM4T模型,Meta的研究人员在一篇研究论文中表示,他们从约400万小时的“原始音频”中收集了音频训练数据。这些音频源自公开可用的网络数据库,但未具体指明是哪个库。 研究论文说,文本数据来自于去年创建的数据集,这些数据集从维基百科和相关网站中提取内容。

封面图片

Meta前天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括

Meta前天推出了 Voicebox,一个全能语音生成模型,这是一个支持六种语言和多种语音处理功能的模型,功能包括 基于上下文的文本转语音合成 跨语言风格转换 跨语言风格转换 多样化的语音采样 详细的功能介绍和原理见评 ||

封面图片

谷歌发布 Lyra V2 超低比特率语音编解码器,可在 56kbps 网速下语音聊天

谷歌发布 Lyra V2 超低比特率语音编解码器,可在 56kbps 网速下语音聊天 谷歌宣布了用于低比特率的 Lyra 语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的网速下实现语音聊天。Lyra 利用机器学习和其它技术进行极低比特率的语音压缩,甚至可以在 3kbps 的速度下工作。谷歌去年开放了 Lyra 的代码。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC

AI识别唇语:Meta 开源第一个视听语言翻译语料库 MuAViC MuAViC 源数据来自 TED 和 TEDx 超过8000名演讲者的视频,提供了9种语言的1200小时的音频-视觉语料,包括英语、阿拉伯语、德语、希腊语语、西班牙语、法语、意大利语、葡萄牙语和俄语。 MuAViC 支持多种任务,如自动语音识别、唇读、机器翻译和端到端的语音到文本翻译。Meta 的开源模型 AV-HuBERT 经过 MuAViC 训练后,在嘈杂环境中的表现远优于其它领先的翻译模型。

封面图片

Roblox借助LLM语言模型发布实时人工智能聊天翻译器

Roblox借助LLM语言模型发布实时人工智能聊天翻译器 Roblox 首席技术官丹-斯特曼(Dan Sturman)说,该翻译器的目标是让Roblox用户更容易理解对方在说什么,从而让他们在相互交流时感觉更舒适。翻译器会自动翻译聊天内容,但用户可以点击图标查看原始信息。"我们知道,当用户用自己的语言与他人交谈或互动时,参与度就会提高,"Sturman 说。"我们借鉴了这一理念,并通过自动翻译消除了语言障碍。"Roblox 首先建立了一个基于转换器的大型语言模型 (LLM),该模型通过公开数据和内部数据进行训练。它将 LLM 置于一个专家混合(MoE)架构中,这是一个运行多个翻译应用程序的环境,每个应用程序都是一种语言的专家。Sturman 说,考虑到他们项目的规模,他的团队认为建立自己的模型比修改现成的 LLM 更容易。斯图尔曼说,Roblox 会监控聊天内容(出于信任和安全考虑),如果翻译不尽完美,可以得到反馈。他补充说,增加聊天翻译人工智能"不会改变我们的隐私和安全流程,违禁词语仍会被屏蔽"。Roblox 在过去几年中一直在努力吸引较为年长的用户,并一直在使用生成式人工智能模型来增强用户体验。去年,它为开发者推出了一款人工智能聊天机器人助手,还能自动将图像资产(如建筑物上的文字)翻译成用户的默认语言。斯图尔曼希望翻译模式最终能超越单纯的文本聊天翻译。"未来,我们可以使用人工智能将不合规的[违禁]词语翻译成合规词语,或者将其用于语音聊天的实时语音翻译,还有很多可能性。"其他公司也在开发人工智能翻译模型。Meta 发布了语音到文本和文本到文本的翻译器 SeamlessM4T,可处理近 100 种语言。Google的通用语音模型也能翻译约 100 种语言,并已部署在 YouTube 上翻译字幕。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人