强制时间对齐的时间戳精确版Whisper语音识别 | WhisperX

强制时间对齐的时间戳精确版Whisper语音识别该存储库通过强制使用基于音素的ASR模型（例如wav2vec2.0）来优化openAI的Whisper模型的时间戳，多语言用例。Whisper是由OpenAI开发的ASR模型，在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录，但相应的时间戳位于话语级别，而不是每个单词，并且可能不准确几秒钟。基于音素的ASR一套经过微调的模型，用于识别区分一个单词和另一个单词的最小语音单元，例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

在Telegram中查看

相关推荐

VoiceStreamAI：通过具有自托管 Whisper 模型的 WebSocket 进行近实时语音转录

：通过具有自托管Whisper模型的WebSocket进行近实时语音转录VoiceStreamAI是一种基于Python3的服务器和JavaScript客户端解决方案，可使用WebSocket实现近实时音频流和转录。该系统采用Huggingface的语音活动检测(VAD)和OpenAI的Whisper模型来实现准确的语音识别和处理。特征通过WebSocket进行实时音频流。使用Huggingface的VAD进行语音活动检测。使用OpenAI的Whisper模型进行语音转录。可定制的音频块处理。支持多语言转录。

Runtime Speech Recognizer：适用于虚幻引擎(Unreal Engine)的跨平台、实时、离线语音识别插件

：适用于虚幻引擎(UnrealEngine)的跨平台、实时、离线语音识别插件，基于OpenAI的Whisper语音识别引擎。主要特征识别速度快提供纯英文和多语言模型，多语言支持100种语言提供不同型号大小（从75Mb到2.9Gb）在编辑器中自动下载语言模型任选将已识别的语音翻译成英语可定制的属性在设置中轻松选择模型尺寸和语言没有静态库或外部依赖项跨平台兼容性

SummerAsr - 基于C++的可独立编译且几乎没有额外依赖库的本地中文语音识别器

-基于C++的可独立编译且几乎没有额外依赖库的本地中文语音识别器SummerAsr是一个独立编译的大范围连续语音识别系统（ASR），是一个可以本地运行的系统，不需要连接网络，并且没有其他依赖，一键编译完成即可进行语音识别。SummerAsr识别的WAV（PCM）数据格式为：16K采样率，16bitsintSummerAsr的底层计算库使用Eigen，Eigen是一套模板定义的函数，大部分情况下，只需要包含头文件即可，所以本项目没有其他依赖，在C++环境下可以独立编译和运行。本项目使用Eigen提供的矩阵库实现了神经网络算子，不需要依赖例如pytorch，tensorflow，ncnn等其他NN运行环境。本项目在Ubuntu上编译运行，其他类Linux平台，如Android，树莓派等，也应该没啥大问题，在Window上没有测试过，可能需要一点点。

商业版ChatGPT单价骤减9成推出语音转文字API

商业版ChatGPT单价骤减9成推出语音转文字API公司介绍称，这次提供的API，基于ChatGPT同款的GPT3.5模型。更为重要的是，在去年12月后，公司已经成功将ChatGPT的成本压低了90%。因此，这款名为“gpt-3.5-turbo”的模型，定价为0.002美元/每1000tokens。根据OpenAI官网的解释，token可以理解为一个一个非结构化的单词，而1000个token大概对应750个词。这个价格也要比目前的GPT3.5模型便宜90%。（来源：OpenAI）截至发稿，已经有多款商业应用成为ChatGPTAPI的早期用户。图片和短视频社交平台Snap在本周推出了名为“MyAI”的可定制化聊天机器人，供付费订阅用户使用。而拥有6000万学生用户的Quizlet在线学习平台，则提供能出题考验学生的家教机器人。许多中国零售业者出海卖货会用到的Shopify平台，也已经上线了聊天机器人导购。短短几个月内，ChatGPT迅速在全球软件生态中觅得自己的位置。（来源：Shopify）除了聊天机器人外，OpenAI也在周三拿出了商业化的语音转文字方案。公司最早在去年9月推出Whisper语音转文字模型，而今天则正式拿出了API接口供商业伙伴付费接入，定价为每分钟0.006美元。根据公司介绍，WhisperAPI支持对语音文件进行转录和翻译，并支持包括英语、中文、阿拉伯语、日语、德语、西班牙语等几十种语言。不过值得注意的是，OpenAI的产品说明文档中也显示，在业界常用的FLEURS数据集测试中，Whisperlarge-v2模型在识别英语、意大利语、德语时的单词错误率都能控制在5%以下，但识别中文的错误率达到14.7%，潜在的原因可能是训练数据中，中文语料的不足。（来源：OpenAI）OpenAI也警告称，由于人工智能会对语音进行“下一个词”的主动预测，所以生成的文本中可能会包含说话者实际上没说过的词。...PC版：https://www.cnbeta.com.tw/articles/soft/1347217.htm手机版：https://m.cnbeta.com.tw/view/1347217.htm

【Stuart Haber博士："时间戳"被认为是中本聪设计比特币的灵感的一部分】

【StuartHaber博士："时间戳"被认为是中本聪设计比特币的灵感的一部分】金色财经联合Coinlive报道，在新加坡举行的2022年新加坡金融科技节上，StuartHaberCrypto,LLC的负责人StuartHaber博士在题为"中本聪的灵感"的会议上透露，他在1990年与研究员同伴发表了一篇题为"如何给数字文件加时间戳"的论文，并解释了他对解决时间戳问题的解决方案。他补充说，选择"时间戳"这个词是因为数字文件是在一串无法盖章的私钥中：这些被认为是中本聪设计比特币的灵感的一部分。

游戏开发者看过来！这应该是目前最全的开发 AI 工具大盘点！

游戏开发者看过来！这应该是目前最全的游戏开发AI工具大盘点！这是一个强大的AI游戏开发工具精选集合，覆盖了从资产生成、纹理生成、图像生成，到语音识别、对话模型、NPC的方方面面。独立游戏开发者，或者游戏开发工作室，将AI工具集成到工作流程中，可以极大简化开发过程，提升创造力和沉浸感，并在各个环节释放出更多可能性！语音生成▢CoquiStudio：https://coqui.ai▢Bark：https://github.com/suno-ai/bark▢ReplicaStudios：https://replicastudios.com语音识别▢OpenAIWhisper：https://huggingface.co/openai/whisper-base▢FacebookWav2Vec2：https://huggingface.co/facebook/wav2vec2-large-xlsr-53对话模型▢ChatGPT：https://chat.openai.com▢HuggingChat：https://huggingface.co/chat故事讲述模型▢MPT-7B-StoryWriter-65k+：https://huggingface.co/mosaicml/mpt-7b-storywriter▢Claude100k：https://www.anthropic.com/index/100k-context-windows▢GTP-432k：https://platform.openai.com/docs/models/overview游戏设计▢Ludo.ai：https://ludo.ai搜索引擎▢Haddock：https://www.haddock.aiAINPC▢Inworld：https://inworld.aiPython库▢NeMoGuardrails：https://github.com/NVIDIA/NeMo-Guardrails▢Guidance：https://github.com/microsoft/guidanceC#库▢Python.Net：https://github.com/pythonnet/pythonnet

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人