:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引

:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引擎。 主要特征 识别速度快 提供纯英文和多语言模型,多语言支持100种语言 提供不同型号大小(从 75 Mb 到 2.9 Gb) 在编辑器中自动下载语言模型 任选将已识别的语音翻译成英语 可定制的属性 在设置中轻松选择模型尺寸和语言 没有静态库或外部依赖项 跨平台兼容性

相关推荐

封面图片

《语音转换文字v11.1.0》

《语音转换文字v11.1.0》 简介:语音转换文字v11.1.0是一款高效便捷的语音转文字工具,支持多语言实时转换,准确率高达98%。无论是会议记录、课堂笔记还是日常备忘,都能快速生成文字内容,大幅提升工作效率。 亮点:高准确率,多语言支持,实时转换,操作简单,适用于多种场景。 标签:#语音转文字 #高效办公 #多语言支持 #语音转换文字v11.1.0 #跨平台 更新日期:2025-04-28 22:59:10 链接:https://pan.quark.cn/s/b13e35234872

封面图片

一个视频翻译工具,可将一种语言的翻译为另一种语言和配音的。 语音识别基于 openai-whisper 离线模型、文字翻

一个视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频。 语音识别基于 openai-whisper 离线模型、文字翻译使用google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,无需购买任何商业接口,也无需付费 | #工具

封面图片

《语音人工合成器》简介:语音人工合成器是一款先进的语音生成工具,能够将文本转化为自然流畅的语音输出。它支持多种语言和音色选择,适

《语音人工合成器》 简介:语音人工合成器是一款先进的语音生成工具,能够将文本转化为自然流畅的语音输出。它支持多种语言和音色选择,适用于有声读物、语音助手、教育等多种场景,为用户提供高质量的语音合成体验。 亮点:多语言支持、自然音色、高保真输出、快速生成、场景适配 标签:#语音合成 #AI语音 #多语言支持 #语音人工合成器 #跨平台 更新日期:2025-04-27 12:30:04 链接:https://pan.quark.cn/s/b1bbaa6d278b

封面图片

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

:通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录 VoiceStreamAI 是一种基于 Python 3 的服务器和 JavaScript 客户端解决方案,可使用 WebSocket 实现近实时音频流和转录。该系统采用 Huggingface 的语音活动检测 (VAD) 和 OpenAI 的 Whisper 模型来实现准确的语音识别和处理。 特征 通过 WebSocket 进行实时音频流。 使用 Huggingface 的 VAD 进行语音活动检测。 使用 OpenAI 的 Whisper 模型进行语音转录。 可定制的音频块处理。 支持多语言转录。

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。 Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。 基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。 强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

OpenAI公布其语音生成模型:Voice Engine

OpenAI公布其语音生成模型:Voice Engine 根据文本输入和一个15秒的音频样本,就能生成接近原始说话者声音的自然听起来的语音。 主要功能 1、自然听起来的语音生成:利用单个15秒的音频样本,Voice Engine能够创造出既情感丰富又真实的语音,显著提升合成语音的自然度和真实感。 2、支持多种用途:从教育援助、内容翻译、提高偏远地区服务质量,到支持非语言人士和帮助患者恢复声音,Voice Engine的应用场景广泛,跨越多个行业。 3、语言和口音的保留:在内容翻译时,Voice Engine能够保留原始发言者的本地口音,使得翻译后的语音不仅流利还能保持原声音的特色。 4、多语种支持:能够生成多种语言的语音输出,适应全球化需求,特别是对于需要将内容本地化到不同语言市场的企业和内容创作者来说,这一特点尤为重要。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人