Meta AI 新作品

MetaAI新作品-MassivelyMultilingualSpeech-为1,100多种语言推出语音转文本、文本转语音等功能,语言转文本的错误率只有Whisper的一半-为4000多种语言训练的语言识别模型,仅有6.1%的错误率-使用连接时序分类CTC的技术,而不是LLMs-今天已经公开模型和代码,以方便其他研究者使用-在wav2vec2.0的基础上构建-使用了一个巧妙的宗教语言数据集:-目前最大的语音数据集仅涵盖100种语言-但是圣经等宗教文本已经被翻译而且有公开的录音-我们创建了包含1100+语言的圣经新约数据集,每种语言32小时的数据-在纳入其他基督教读物的无标签录音后,将可用语言数量增加到4000+-录音以男性为主,但是模型的男女性声音表现同样出色-录音是宗教内容,但模型并没有过度偏向宗教语言(还是有一点)https://ai.facebook.com/blog/multilingual-model-speech-recognition/https://ai.facebook.com/blog/wav2vec-20-learning-the-structure-of-speech-from-raw-audio/

相关推荐

封面图片

AI通过宗教打通人类语言障碍:Meta 开源发布支持1100-4000种语言的语音技术

AI通过宗教打通人类语言障碍:Meta开源发布支持1100-4000种语言的语音技术MassivelyMultilingualSpeech(MMS)支持1107种语言的STT(语音转文本)和TTS(文本转语音),可识别4017种口头语言。模型和代码在CC-BY-NC4.0协议下开源,单词错误率只有OpenAIWhisper的一半。"现有的语音识别模型和语音数据集仅涵盖大约100种语言——地球已知7000多种语言的一小部分。更令人担忧的是,这些语言中将近一半可能会在我们有生之年消失。通过这项工作,我们希望为保护世界语言多样性做出一点贡献。"为收集数千种语言的音频数据Meta求助了《圣经》等宗教文本,这些文本已被翻译成了多种不同语言,并且已被广泛用于语言翻译研究,这些翻译的公开录音记录了人们用不同语言阅读这些文本的情况。通过1100多种语言的新约读物数据和4000多种其它基督宗教读物的无标签录音,Meta成功将语言覆盖扩展为了此前10倍。——频道:@TestFlightCN

封面图片

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。

Meta推出SeamlessM4T,一种用于语音和文本翻译的多模式AI模型。Meta周二发布了,这是一个新的多模式和多语言AI​​翻译模型,可以让说不同语言的人更有效地进行交流。M4T可以进行多达100种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。SeamlessM4T将使用研究许可证公开发布,以便研究人员和开发人员在此基础上开展工作。Meta还将公布SeamlessAlign的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达270,000小时。随着时间的推移,Meta将把这些翻译和转录方面的AI进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。——、

封面图片

普通人也能成为音频剪辑师,Meta 推出 AI 模型 Voicebox

普通人也能成为音频剪辑师,Meta推出AI模型VoiceboxMeta继推出ImageBind之后,于今天再次推出了全新的生成式AI模型。该模型帮助创作者执行音频编辑、采样和风格化等语音生成任务,即便是普通用户也能轻松上手。Meta在介绍Voicebox模型时表示,视障人士可以听到好友的回复信息、普通用户可以用自己的语调、语气来说外语。AI模型本身可以生成高质量的音频剪辑,消除汽车喇叭等不必要的背景噪音,同时保留音频的内容和风格,同时使用多种语言,以六种语言生成语音。该模型的未来发展包括在元宇宙游戏中为视觉助理或非玩家角色提供自然的声音。Meta还比较了Voicebox和Vall-E、YourTTS等其它音频AI模型,表明Voicebox更先进,在比较单词错误率和样式相似性时优于两种模型。Voicebox仍在进行中,尚未向公众开放。Meta表示,它认识到这种AI可能会造成的潜在危害,并且正在研究一种有效的方法来区分Voicebox生成的真实语音和音频。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Spotify 测试 AI 新功能:克隆播客主播的声音并将其翻译成其它语言

Spotify测试AI新功能:克隆播客主播的声音并将其翻译成其它语言Spotify正在测试一项新的人工智能功能,该功能名为“语音翻译(VoiceTranslation)”,该功能可以克隆播客主播的声音,并用该声音使用另一种语言读出播客。该工具由Spotify在OpenAI的自动语音识别(ASR)系统Whisper的帮助下开发的,使用了语音转文本生成AI模型来翻译音频文件,并使用语音复制模型来匹配原始说话者的风格。——、

封面图片

Meta推出新的AI模型 可转录和翻译近百种语言

Meta推出新的AI模型可转录和翻译近百种语言SeamlessM4T是根据知识共享许可(CC)协议4.0发布的,允许研究人员对其进行迭代。除了SeamlessM4T,Meta还发布了其开放翻译数据集SeamlessAlign的元数据。Meta表示:“建立一个通用语言翻译器,例如像《银河系漫游指南》中虚构的巴别鱼那样,是具有挑战性的,因为现有的语音对语音和语音对文本系统只覆盖了世界语言的一小部分。”《银河系漫游指南》是由英国作家道格拉斯·亚当斯所写的一系列科幻小说,而巴别鱼是这部作品所创造的一种神奇生物,体型小到足以放进人的耳朵,靠接受脑电波为生。如果将巴别鱼放到耳朵里,人们可以理解任何语言。对于SeamlessM4T模型,Meta研究人员在一篇研究论文中表示,他们从400万小时的原始音频中收集了音频训练数据,这些音频来自一个公开的抓取网络数据存储库,但没有说明是哪个存储库。研究报告称,文本数据来自去年创建的数据集,这些数据集从维基百科和相关网站上提取了内容。Meta表示,SeamlessM4T代表了一个重大突破,因为这个模型可以一次性完成整个翻译任务,而不像其他大型翻译模型那样,将翻译分成不同的系统。SeamlessM4T建立在Meta之前的翻译模型之上。Meta去年发布了支持200种语言的文本到文本的翻译模型。它开发了用于多语言语音到语音翻译的数据集,以及用于语音识别的大规模多语言语音。Meta去年展示了它的通用语音翻译器,可将闽南语转化为英语。...PC版:https://www.cnbeta.com.tw/articles/soft/1378781.htm手机版:https://m.cnbeta.com.tw/view/1378781.htm

封面图片

Meta推出新AI模型 可翻译近百种语言

Meta推出新AI模型可翻译近百种语言Facebook的母公司MetaPlatforms推出一款人工智能模型,能够翻译和转录数十种语言的语音,是实现跨语言实时交流工具的潜在基础。路透社报道,Meta星期二在一篇博客文章中表示,其SeamlessM4T模型可以支持近100种语言的文本和语音翻译,以及35种语言的语音到语音翻译。Meta总裁扎克伯格说,他设想这样的工具能够在元宇宙中促进来自全球各地用户之间的互动。博客文章中说,Meta将这个模型提供给公众用于非商业用途。Meta今年推出了一系列的AI模型,其中大部分是免费的。扎克伯格称,开放的AI生态系统对Meta更有利,因为公司通过有效的众包方式为其社交平台创建面向消费者的工具,比对模型的访问收费,获益更多。对于SeamlessM4T模型,Meta的研究人员在一篇研究论文中表示,他们从约400万小时的“原始音频”中收集了音频训练数据。这些音频源自公开可用的网络数据库,但未具体指明是哪个库。研究论文说,文本数据来自于去年创建的数据集,这些数据集从维基百科和相关网站中提取内容。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人