强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型（例如wav2vec2.0）来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型（例如wav2vec2.0）来优化openAI的Whisper模型的时间戳，多语言用例。 Whisper是由OpenAI开发的ASR模型，在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录，但相应的时间戳位于话语级别，而不是每个单词，并且可能不准确几秒钟。基于音素的 ASR一套经过微调的模型，用于识别区分一个单词和另一个单词的最小语音单元，例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

在Telegram中查看

相关推荐