:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引

:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引擎。 主要特征 识别速度快 提供纯英文和多语言模型,多语言支持100种语言 提供不同型号大小(从 75 Mb 到 2.9 Gb) 在编辑器中自动下载语言模型 任选将已识别的语音翻译成英语 可定制的属性 在设置中轻松选择模型尺寸和语言 没有静态库或外部依赖项 跨平台兼容性

相关推荐

封面图片

《语音转换文字v11.1.0》

《语音转换文字v11.1.0》 简介:语音转换文字v11.1.0是一款高效便捷的语音转文字工具,支持多语言实时转换,准确率高达98%。无论是会议记录、课堂笔记还是日常备忘,都能快速生成文字内容,大幅提升工作效率。 亮点:高准确率,多语言支持,实时转换,操作简单,适用于多种场景。 标签:#语音转文字 #高效办公 #多语言支持 #语音转换文字v11.1.0 #跨平台 更新日期:2025-04-28 22:59:10 链接:

封面图片

《语音人工合成器》简介:语音人工合成器是一款先进的语音生成工具,能够将文本转化为自然流畅的语音输出。它支持多种语言和音色选择,适

《语音人工合成器》 简介:语音人工合成器是一款先进的语音生成工具,能够将文本转化为自然流畅的语音输出。它支持多种语言和音色选择,适用于有声读物、语音助手、教育等多种场景,为用户提供高质量的语音合成体验。 亮点:多语言支持、自然音色、高保真输出、快速生成、场景适配 标签:#语音合成 #AI语音 #多语言支持 #语音人工合成器 #跨平台 更新日期:2025-04-27 12:30:04 链接:

封面图片

《KrillinAI - 跨平台 AI 视频翻译和配音工具》

《KrillinAI - 跨平台 AI 视频翻译和配音工具》 简介:KrillinAI是一款强大的跨平台AI视频翻译和配音工具,支持多语言实时转换,让您的视频内容轻松覆盖全球观众。通过先进的语音合成技术,提供自然流畅的配音效果,打破语言障碍,提升传播效率。 亮点:多语言实时翻译,AI智能配音,跨平台兼容,操作简单高效。 标签:#AI翻译 #视频配音 #多语言支持 #KrillinAI #跨平台工具 更新日期:2025-05-01 08:21:11 链接:

封面图片

一个视频翻译工具,可将一种语言的翻译为另一种语言和配音的。 语音识别基于 openai-whisper 离线模型、文字翻

一个视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频。 语音识别基于 openai-whisper 离线模型、文字翻译使用google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,无需购买任何商业接口,也无需付费 | #工具

封面图片

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录 VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。 特征 通过 WebSocket 进行实时音频流。 使用 Huggingface 的 VAD 进行语音活动检测。 使用 OpenAI 的 Whisper 模型进行语音转录。 可定制的音频块处理。 支持多语言转录。

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。 Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。 基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。 强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人