-超多方言ASR:支持30多种方言的语音识别模型,打破单一模型方言限制,提供多方言语音数据训练的开源版本,适用于多方言语音识别任

None

相关推荐

封面图片

中国电信发布星辰超多方言语音识别大模型 能同时识别30多种方言

中国电信发布星辰超多方言语音识别大模型 能同时识别30多种方言 据介绍,研发团队构建了一个超过30种方言、30万小时以上的高质量方言数据库。该系统不仅大大降低了推理时的语音传输比特率,而且让沟通更自然流畅,解决了老年人及“老少边穷”地区信息服务无法触达的问题。值得一提的是,中电信人工智能科技有限公司总经理何忠江表示,语音大模型的算法代码和训练代码将面向社会全部开源开放据报道,目前,星辰语音大模型已在福建、江西、广西、北京、内蒙古等地的中国电信10000智能客服试点应用。接入星辰大模型以后,智能客服秒懂30种方言,实现日均处理约200万通电话。另外,星辰语音大模型还落地多地市的12345平台。 ... PC版: 手机版:

封面图片

:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引

:适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件,基于OpenAI 的 Whisper 语音识别引擎。 主要特征 识别速度快 提供纯英文和多语言模型,多语言支持100种语言 提供不同型号大小(从 75 Mb 到 2.9 Gb) 在编辑器中自动下载语言模型 任选将已识别的语音翻译成英语 可定制的属性 在设置中轻松选择模型尺寸和语言 没有静态库或外部依赖项 跨平台兼容性

封面图片

:将文本转换为音素及其持续时间的GPT模型,适用于输入语音合成器

封面图片

适用于中文语音克隆的工具 GPT-SoVITS.mp4

封面图片

一款适用于中文语音克隆的工具:GPT-SoVITS

一款适用于中文语音克隆的工具:GPT-SoVITS 仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果,且训练出高质量的 TTS 模型! 目前已获得 1.1k Star,看到很多人对其评价为目前最强中文语音克隆工具。值得大家一试,Windows 用户可直接开箱使用。 频道:@kejiqu 群组:@kejiquchat

封面图片

YouTube同声传译:字幕文本转语音TTS(适用于沉浸式翻译)

YouTube同声传译:字幕文本转语音TTS(适用于沉浸式翻译) 这是一个专为YouTube设计的油猴脚本,可以将沉浸式翻译生成的双语字幕自动转换为语音播放。将YouTube上的沉浸式翻译双语字幕转换为语音播放,支持更改音色和调整语音速度,支持多语言,自动检测并朗读沉浸式翻译生成的双语字幕,支持多种语言和音色。 智能语音队列管理,确保字幕朗读不重叠,新字幕出现时会等待当前语音播放完成 脚本地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人