VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管Whisper模型的WebSocket进行近实时语音转录VoiceStreamAI是一种基于Python3的服务器和JavaScript客户端解决方案,可使用WebSocket实现近实时音频流和转录。该系统采用Huggingface的语音活动检测(VAD)和OpenAI的Whisper模型来实现准确的语音识别和处理。特征通过WebSocket进行实时音频流。使用Huggingface的VAD进行语音活动检测。使用OpenAI的Whisper模型进行语音转录。可定制的音频块处理。支持多语言转录。

相关推荐

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | WhisperX

强制时间对齐的时间戳精确版Whisper语音识别该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。基于音素的ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

Whisper JAX:这是一个对OpenAI开源的Whisper模型网页链接 的优化版本,它针对GPU和TPU做了优化,性能提

WhisperJAX:这是一个对OpenAI开源的Whisper模型网页链接的优化版本,它针对GPU和TPU做了优化,性能提升了70倍,最快1小时的音频15秒能完成转录!提速的关键:1.批量处理Transformers实现了一种批处理算法,其中单个音频样本被分成30秒的片段,然后分批转录这些块。这种批处理算法比OpenAI(按顺序转录块)提供高达7倍的增益2.JAX优于PyTorchJAX是一个用于高性能机器学习研究的自动微分库,通过即时(JIT)编译Whisper,比PyTorch在GPU上获得了2倍的速度提升3.TPUs优于GPUs张量处理单元(TPU)是由Google设计的ML加速器,TPU专为矩阵乘法而构建,与更通用的GPU相比具有显着优势。在TPUv4-8上运行WhisperJAX比在NVIDIAA100上快5倍!全部加在一起:批处理7倍JAX2倍TPU5倍速度增益=>整体速度提升70倍

封面图片

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4据《纽约时报》报道,OpenAI公司迫切需要大量训练数据,为此开发了Whisper音频转录模型来克服困难,转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。该公司知道这在法律上存在问题,但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI发言人表示,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。据报道,该公司在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。——、

封面图片

cheetah:一款基于人工智能的 macOS 应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间

:一款基于人工智能的macOS应用程序,旨在通过提供实时、谨慎的指导和实时编码平台集成,在远程软件工程面试期间协助用户。该程序可以提高面试表现并增加获得30万美元SWE工作的机会,而无需花费周末时间来应对leetcode挑战和记住永远不会使用的算法。Cheetah利用Whisper进行实时音频转录,并利用GPT-4生成提示和解决方案。你得有一个OpenAIAPI密钥才能使用该程序。如果无法访问GPT-4,则可以使用gpt-3.5-turbo作为替代方案。Whisper使用GeorgiGerganov的whisper.cpp在你的系统上本地运行。需要最新的M1或M2Mac才能获得最佳性能。简单来说,这个开源项目是专门用来面试作弊的,Whisper用来识别语音成文字,ChatGPT根据识别出来的文字为你提供参考答案。

封面图片

OpenAI宣布开源多语言语音识别系统Whisper

OpenAI宣布开源多语言语音识别系统Whisper尽管包括Google、亚马逊和Meta在内的科技巨头,都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域,语音识别仍是一个颇具挑战性的话题。好消息是,今日OpenAI隆重地宣布了Whisper的开源——可知作为一套自动语音识别系统,官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。PC版:https://www.cnbeta.com/articles/soft/1319379.htm手机版:https://m.cnbeta.com/view/1319379.htm

封面图片

利用 AI 进行实时语音绘图 | Livestory | #工具

利用AI进行实时语音绘图#工具该工具将传统的提示词输入换成了语音输入,帮你实时生成图像,做到语音控制绘图。使用到的技术框架,如下:-WhisperCPP(实时语音转文本)-SDXLTurboonCoreweave(图像生成模型)-LCM(differentversions)onReplicate(加速图像生成)目前代码已经开源,感兴趣的可以部署使用。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人