Meta AI 新作品
Meta AI 新作品
- Massively Multilingual Speech
- 为 1,100 多种语言推出语音转文本、文本转语音等功能,语言转文本的错误率只有 Whisper 的一半
- 为 4000 多种语言训练的语言识别模型,仅有6.1%的错误率
- 使用连接时序分类CTC的技术,而不是LLMs
- 今天已经公开模型和代码,以方便其他研究者使用
- 在 wav2vec2.0 的基础上构建
- 使用了一个巧妙的宗教语言数据集:
- 目前最大的语音数据集仅涵盖100种语言
- 但是圣经等宗教文本已经被翻译而且有公开的录音
- 我们创建了包含1100+语言的圣经新约数据集,每种语言32小时的数据
- 在纳入其他基督教读物的无标签录音后,将可用语言数量增加到4000+
- 录音以男性为主,但是模型的男女性声音表现同样出色
- 录音是宗教内容,但模型并没有过度偏向宗教语言(还是有一点)