Meta AI 新作品

Meta AI 新作品 - Massively Multilingual Speech - 为 1,100 多种语言推出语音转文本、文本转语音等功能,语言转文本的错误率只有 Whisper 的一半 - 为 4000 多种语言训练的语言识别模型,仅有6.1%的错误率 - 使用连接时序分类CTC的技术,而不是LLMs - 今天已经公开模型和代码,以方便其他研究者使用 - 在 wav2vec2.0 的基础上构建 - 使用了一个巧妙的宗教语言数据集: - 目前最大的语音数据集仅涵盖100种语言 - 但是圣经等宗教文本已经被翻译而且有公开的录音 - 我们创建了包含1100+语言的圣经新约数据集,每种语言32小时的数据 - 在纳入其他基督教读物的无标签录音后,将可用语言数量增加到4000+ - 录音以男性为主,但是模型的男女性声音表现同样出色 - 录音是宗教内容,但模型并没有过度偏向宗教语言(还是有一点)

相关推荐

封面图片

Meta 真的把语言研究透了

Meta 真的把语言研究透了 今天推出 Massively Multilingual Speech - 为 1,100 多种语言推出语音转文本、文本转语音等功能,语言转文本的错误率只有 Whisper 的一半 - 为 4000 多种语言训练的语言识别模型,仅有6.1%的错误率 - 这项研究的关键是使用了一个巧妙的宗教语言数据集: 1/3

封面图片

几千年前,《圣经旧约》记载,上帝为了阻止人类的巴别塔计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此

几千年前,《圣经旧约》记载,上帝为了阻止人类的巴别塔计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。 几千年后,人类运用《圣经新约》的文本和语音资料,做出了能让1000多种语言互通的 AI 模型。 再过几千年,也许会成为一个从旧神到新神的历史传说。 : 这项研究的关键是使用了一个巧妙的宗教语言数据集: - 目前最大的语音数据集仅涵盖100种语言 - 但是圣经等宗教文本已经被翻译而且有公开的录音 - 我们创建了包含1100+语言的圣经新约数据集,每种语言32小时的数据 - 在纳入其他基督教读物的无标签录音后,将可用语言数量增加到4000+

封面图片

【分享】录音转文字pro 1.0.4

【分享】录音转文字pro 1.0.4  【楼主点评】:一款功能齐全且更实用的工具app,您可以导入音频或者实时录制进行转换,我们的录音转文字软件还支持语音翻译、语音转写、音频裁剪合并、视频音频文字转换,是我们日常会议录音、工作洽谈的必备语音软件。 【应用名称】:录音转文字pro 【应用包名】:com.lbrdpr.recordpro 【应用版本】:1.0.4 【应用大小】:73.0MB 【版本说明】:多功能语音转文字工具 录音转文字pro作为一款音频转文字工具,支持普通话、英语、粤语、四川话等多种语言的准确识别。一键即可将语音快速、准确地转换成文字形式,让用户可以迅速阅读并提炼重点内容,从而提高工作效率。 专业录音设备 与手机自带录音机不同,录音转文字pro具有堪比专业录音设备的录音效果。音质清晰流畅,能够真实还原录音场景,为用户提供高质量的录音体验。 外部音频导入和在线语音翻译 该软件支持导入外部音频进行文本转换,用户可以对转换结果进行编辑、复制、校对等多种操作,省去了二次编写的麻烦。此外,录音转文字pro还提供在线语音翻译功能,满足用户日常翻译、学习和沟通的多重需求。 语音识别 具备专业的语音识别技术,支持多种语言,包括普通话、英语、粤语、四川话等。 语音实时转文字 一键实现语音迅速准确的转换成文字形式,提高工作效率,方便快捷。 专业录音 拥有与专业录音设备媲美的录音效果,音质清晰流畅,还原真实录音场景。 外部音频导入 支持导入外部音频进行文本转换,结果支持多种操作,如编辑、复制、校对等。 在线语音翻译 支持语言实时互译,满足用户日常翻译、学习和沟通的多重需求。 【使用方法】:打开即用 【下载地址】:通过网盘分享的文件:录音转文字pro.apk 链接:提取码: chyt

封面图片

《录音转文字助手v7.9.1高级版.apk》

《录音转文字助手v7.9.1高级版.apk》 简介:录音转文字助手v7.9.1高级版.apk是一款高效的语音转文字软件,高级版具备更精准的识别能力和更多的功能。它能将录音文件快速转换为文字,支持多种语言和方言识别,还可对转换后的文字进行编辑、分享,方便用户记录会议、讲座等内容 标签: #录音转文字助手v7.9.1高级版 #语音转文字软件 #文字记录工具 #语言识别软件 文件大小 NG 链接:

封面图片

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。

Meta 推出 SeamlessM4T,一种用于语音和文本翻译的多模式 AI 模型。 Meta周二发布了 ,这是一个新的多模式和多语言 AI ​​翻译模型,可以让说不同语言的人更有效地进行交流。 M4T 可以进行多达 100 种语言的语音到文本、文本到语音、语音到语音、文本到文本翻译和语音识别。 SeamlessM4T将使用研究许可证公开发布,以便研究人员和开发人员在此基础上开展工作。 Meta还将公布 SeamlessAlign 的元数据,这是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270,000 小时。 随着时间的推移,Meta将把这些翻译和转录方面的 AI 进展整合到Facebook、Instagram、WhatsApp、Messenger和Threads中。 、

封面图片

Meta推出新AI模型 可翻译近百种语言

Meta推出新AI模型 可翻译近百种语言 Facebook的母公司Meta Platforms推出一款人工智能模型,能够翻译和转录数十种语言的语音,是实现跨语言实时交流工具的潜在基础。 路透社报道,Meta星期二在一篇博客文章中表示,其SeamlessM4T模型可以支持近100种语言的文本和语音翻译,以及35种语言的语音到语音翻译。 Meta总裁扎克伯格说,他设想这样的工具能够在元宇宙中促进来自全球各地用户之间的互动。 博客文章中说,Meta将这个模型提供给公众用于非商业用途。 Meta今年推出了一系列的AI模型,其中大部分是免费的。扎克伯格称,开放的AI生态系统对Meta更有利,因为公司通过有效的众包方式为其社交平台创建面向消费者的工具,比对模型的访问收费,获益更多。 对于SeamlessM4T模型,Meta的研究人员在一篇研究论文中表示,他们从约400万小时的“原始音频”中收集了音频训练数据。这些音频源自公开可用的网络数据库,但未具体指明是哪个库。 研究论文说,文本数据来自于去年创建的数据集,这些数据集从维基百科和相关网站中提取内容。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人