Meta AI 新作品

Meta AI 新作品 - Massively Multilingual Speech - 为 1,100 多种语言推出语音转文本、文本转语音等功能，语言转文本的错误率只有 Whisper 的一半 - 为 4000 多种语言训练的语言识别模型，仅有6.1%的错误率 - 使用连接时序分类CTC的技术，而不是LLMs - 今天已经公开模型和代码，以方便其他研究者使用 - 在 wav2vec2.0 的基础上构建 - 使用了一个巧妙的宗教语言数据集： - 目前最大的语音数据集仅涵盖100种语言 - 但是圣经等宗教文本已经被翻译而且有公开的录音 - 我们创建了包含1100+语言的圣经新约数据集，每种语言32小时的数据 - 在纳入其他基督教读物的无标签录音后，将可用语言数量增加到4000+ - 录音以男性为主，但是模型的男女性声音表现同样出色 - 录音是宗教内容，但模型并没有过度偏向宗教语言（还是有一点）

在Telegram中查看

相关推荐

Meta 真的把语言研究透了

Meta 真的把语言研究透了今天推出 Massively Multilingual Speech - 为 1,100 多种语言推出语音转文本、文本转语音等功能，语言转文本的错误率只有 Whisper 的一半 - 为 4000 多种语言训练的语言识别模型，仅有6.1%的错误率 - 这项研究的关键是使用了一个巧妙的宗教语言数据集： 1/3

几千年前，《圣经旧约》记载，上帝为了阻止人类的巴别塔计划，上帝让人类说不同的语言，使人类相互之间不能沟通，计划因此失败，人类自此

几千年前，《圣经旧约》记载，上帝为了阻止人类的巴别塔计划，上帝让人类说不同的语言，使人类相互之间不能沟通，计划因此失败，人类自此各散东西。几千年后，人类运用《圣经新约》的文本和语音资料，做出了能让1000多种语言互通的 AI 模型。再过几千年，也许会成为一个从旧神到新神的历史传说。 : 这项研究的关键是使用了一个巧妙的宗教语言数据集： - 目前最大的语音数据集仅涵盖100种语言 - 但是圣经等宗教文本已经被翻译而且有公开的录音 - 我们创建了包含1100+语言的圣经新约数据集，每种语言32小时的数据 - 在纳入其他基督教读物的无标签录音后，将可用语言数量增加到4000+

【分享】录音转文字pro 1.0.4

【分享】录音转文字pro 1.0.4 【楼主点评】：一款功能齐全且更实用的工具app，您可以导入音频或者实时录制进行转换，我们的录音转文字软件还支持语音翻译、语音转写、音频裁剪合并、视频音频文字转换，是我们日常会议录音、工作洽谈的必备语音软件。【应用名称】：录音转文字pro 【应用包名】：com.lbrdpr.recordpro 【应用版本】：1.0.4 【应用大小】：73.0MB 【版本说明】：多功能语音转文字工具录音转文字pro作为一款音频转文字工具，支持普通话、英语、粤语、四川话等多种语言的准确识别。一键即可将语音快速、准确地转换成文字形式，让用户可以迅速阅读并提炼重点内容，从而提高工作效率。专业录音设备与手机自带录音机不同，录音转文字pro具有堪比专业录音设备的录音效果。音质清晰流畅，能够真实还原录音场景，为用户提供高质量的录音体验。外部音频导入和在线语音翻译该软件支持导入外部音频进行文本转换，用户可以对转换结果进行编辑、复制、校对等多种操作，省去了二次编写的麻烦。此外，录音转文字pro还提供在线语音翻译功能，满足用户日常翻译、学习和沟通的多重需求。语音识别具备专业的语音识别技术，支持多种语言，包括普通话、英语、粤语、四川话等。语音实时转文字一键实现语音迅速准确的转换成文字形式，提高工作效率，方便快捷。专业录音拥有与专业录音设备媲美的录音效果，音质清晰流畅，还原真实录音场景。外部音频导入支持导入外部音频进行文本转换，结果支持多种操作，如编辑、复制、校对等。在线语音翻译支持语言实时互译，满足用户日常翻译、学习和沟通的多重需求。【使用方法】：打开即用【下载地址】：通过网盘分享的文件：录音转文字pro.apk 链接:提取码: chyt

#声音克隆 #AI Noiz AI

#声音克隆 #AI Noiz AI 语音合成与声音克隆工具，依托自研超大语音模型，只需 3-10 秒的录音，即可克隆专属声音，支持一键多语言转换，保留原音，使用场景包括文本生成语音（TTS）、语音克隆、视频配音和视频翻译，免费使用，需要登陆。 https://noiz.ai 频道 @Edgebyte

Meta 推出 SeamlessM4T，一种用于语音和文本翻译的多模式 AI 模型。

Meta 推出 SeamlessM4T，一种用于语音和文本翻译的多模式 AI 模型。 Meta周二发布了，这是一个新的多模式和多语言 AI 翻译模型，可以让说不同语言的人更有效地进行交流。 M4T 可以进行多达 100 种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。 SeamlessM4T将使用研究许可证公开发布，以便研究人员和开发人员在此基础上开展工作。 Meta还将公布 SeamlessAlign 的元数据，这是迄今为止最大的开放多模式翻译数据集，挖掘的语音和文本对齐总计达 270,000 小时。随着时间的推移，Meta将把这些翻译和转录方面的 AI 进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。、

网站Whisper JAX

网站Whisper JAX 网站功能：语音转文字网站简介：一款基于 Whisper API 的在线语音转文字工具，支持麦克风、录音文件、YouTube 三种音频来源，单文件 2 小时以内免费使用。还支持多种语言，包括繁体中文，并且可以提供时间戳和翻译功能。网站链接：点击访问频道群聊投稿商务

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人