:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引

:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引擎。 主要特征 识别速度快 提供纯英文和多语言模型,多语言支持100种语言 提供不同型号大小(从 75 Mb 到 2.9 Gb) 在编辑器中自动下载语言模型 任选将已识别的语音翻译成英语 可定制的属性 在设置中轻松选择模型尺寸和语言 没有静态库或外部依赖项 跨平台兼容性

相关推荐

封面图片

一个视频翻译工具,可将一种语言的翻译为另一种语言和配音的。 语音识别基于 openai-whisper 离线模型、文字翻

一个视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频。 语音识别基于 openai-whisper 离线模型、文字翻译使用google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,无需购买任何商业接口,也无需付费 | #工具

封面图片

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录 VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。 特征 通过 WebSocket 进行实时音频流。 使用 Huggingface 的 VAD 进行语音活动检测。 使用 OpenAI 的 Whisper 模型进行语音转录。 可定制的音频块处理。 支持多语言转录。

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。 Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。 基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。 强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

资源微软TTS-Server-v0.9安卓版

资源微软TTS-Server-v0.9安卓版 资源简介: 微软 TTS 引擎安卓版,为你带来超凡的语音体验! 精准的语音合成:清晰、自然的语音输出,让你的聆听更加舒适。 多语言支持:涵盖多种语言,满足不同需求。 高度可定制:调整语速、音高等,打造个性化语音。 简单易用:界面简洁,操作方便。 安卓适配:完美兼容安卓系统。 链接:【阿里云盘】点击获取 关键词:#语音合成#多语言支持#可定制#安卓适配#安全可靠#广泛应用#跨平台使用 云盘投稿 • 云盘搜索 • 广告合作

封面图片

微软TTS-Server-v0.9安卓版

微软TTS-Server-v0.9安卓版 描述: 微软 TTS 引擎安卓版,为你带来超凡的语音体验! 精准的语音合成:清晰、自然的语音输出,让你的聆听更加舒适。 多语言支持:涵盖多种语言,满足不同需求。 高度可定制:调整语速、音高等,打造个性化语音。 简单易用:界面简洁,操作方便。 安卓适配:完美兼容安卓系统。 链接: 密码:123)_024259.exe 大小:8 MB 标签:#语音合成 # #多语言支持 # #可定制 # #安卓适配 # #安全可靠 # #广泛应用 # #跨平台使用 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

OpenAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:Voice Engine 根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 主要功能 1、自然听起来的语音生成:利用单个15秒的音频样本,Voice Engine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。 2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,Voice Engine的应用场景广泛,跨越多个行业。 3、语言和口音的保留:在内容翻译时,Voice Engine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人