OpenAI宣布开源多语言语音识别系统Whisper

OpenAI宣布开源多语言语音识别系统Whisper尽管包括Google、亚马逊和Meta在内的科技巨头,都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域,语音识别仍是一个颇具挑战性的话题。好消息是,今日OpenAI隆重地宣布了Whisper的开源——可知作为一套自动语音识别系统,官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。PC版:https://www.cnbeta.com/articles/soft/1319379.htm手机版:https://m.cnbeta.com/view/1319379.htm

相关推荐

封面图片

能听懂口音的开源语音系统来了:OpenAI出品 支持99种语言

能听懂口音的开源语音系统来了:OpenAI出品支持99种语言逼近人类水平的语音识别系统来了?没错,OpenAI新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性!不仅如此,对于不同口音、专业术语的识别效果也是杠杠的!一经发布就在推特上收获4800+点赞,1000+转发。PC版:https://www.cnbeta.com/articles/soft/1320233.htm手机版:https://m.cnbeta.com/view/1320233.htm

封面图片

VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管Whisper模型的WebSocket进行近实时语音转录VoiceStreamAI是一种基于Python3的服务器和JavaScript客户端解决方案,可使用WebSocket实现近实时音频流和转录。该系统采用Huggingface的语音活动检测(VAD)和OpenAI的Whisper模型来实现准确的语音识别和处理。特征通过WebSocket进行实时音频流。使用Huggingface的VAD进行语音活动检测。使用OpenAI的Whisper模型进行语音转录。可定制的音频块处理。支持多语言转录。

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | WhisperX

强制时间对齐的时间戳精确版Whisper语音识别该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。基于音素的ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

AI通过宗教打通人类语言障碍:Meta 开源发布支持1100-4000种语言的语音技术

AI通过宗教打通人类语言障碍:Meta开源发布支持1100-4000种语言的语音技术MassivelyMultilingualSpeech(MMS)支持1107种语言的STT(语音转文本)和TTS(文本转语音),可识别4017种口头语言。模型和代码在CC-BY-NC4.0协议下开源,单词错误率只有OpenAIWhisper的一半。"现有的语音识别模型和语音数据集仅涵盖大约100种语言——地球已知7000多种语言的一小部分。更令人担忧的是,这些语言中将近一半可能会在我们有生之年消失。通过这项工作,我们希望为保护世界语言多样性做出一点贡献。"为收集数千种语言的音频数据Meta求助了《圣经》等宗教文本,这些文本已被翻译成了多种不同语言,并且已被广泛用于语言翻译研究,这些翻译的公开录音记录了人们用不同语言阅读这些文本的情况。通过1100多种语言的新约读物数据和4000多种其它基督宗教读物的无标签录音,Meta成功将语言覆盖扩展为了此前10倍。——频道:@TestFlightCN

封面图片

OpenAI 低价倾销 ChatGPT API

OpenAI低价倾销ChatGPTAPIOpenAI向开发者释放了它的ChatGPT和Whisper模型,他们现在可以通过API调用将这个聊天机器人互动和语音到文本转换整合到自己的应用程序中。新的ChatGPTAPI将使用与ChatGPT相同的人工智能模型,其API的价格为每1000个字元(约750个单词)0.2美分。OpenAI称这比以前的GPT模型便宜10倍。Whisper是去年9月发布的一个自动语音识别系统,它能够将英语口语转化为文本。Whisper的价格为0.6美分/分钟。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

Runtime Speech Recognizer:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件

:适用于虚幻引擎(UnrealEngine)的跨平台、实时、离线语音识别插件,基于OpenAI的Whisper语音识别引擎。主要特征识别速度快提供纯英文和多语言模型,多语言支持100种语言提供不同型号大小(从75Mb到2.9Gb)在编辑器中自动下载语言模型任选将已识别的语音翻译成英语可定制的属性在设置中轻松选择模型尺寸和语言没有静态库或外部依赖项跨平台兼容性

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人