VoiceStreamAI:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录
:通过具有自托管Whisper模型的WebSocket进行近实时语音转录VoiceStreamAI是一种基于Python3的服务器和JavaScript客户端解决方案,可使用WebSocket实现近实时音频流和转录。该系统采用Huggingface的语音活动检测(VAD)和OpenAI的Whisper模型来实现准确的语音识别和处理。特征通过WebSocket进行实时音频流。使用Huggingface的VAD进行语音活动检测。使用OpenAI的Whisper模型进行语音转录。可定制的音频块处理。支持多语言转录。
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人