用OpenAI的Whisper模型进行YouTube视频转录的工具,提供了一个Notebook,可以选择不同的推理参数或直接用现

用OpenAI的Whisper模型进行YouTube视频转录的工具,提供了一个Notebook,可以选择不同的推理参数或直接用现有设置来转录视频并将转录结果和音频存储在Google Drive中。 | #工具

相关推荐

封面图片

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型 就在几天前,YouTube 首席执行官尼尔-莫汉(Neal Mohan)在接受彭博社采访时表示,OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。据《纽约时报》报道,OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频,然后用于训练 GPT-4。The Information此前曾报道,OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。据报道,OpenAI 总裁格雷格-布罗克曼(Greg Brockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(Matt Bryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载 YouTube 内容"是不被允许的,同时他还表示,公司并不知道 OpenAI 使用过此类内容。不过,该报道称,Google有人知道但没有对 OpenAI 采取行动,因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》 ,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在 2022 年 6 月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 ... PC版: 手机版:

封面图片

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4 据《纽约时报》报道,OpenAI 公司迫切需要大量训练数据,为此开发了 Whisper音频转录模型来克服困难,转录了超过100万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这在法律上存在问题,但相信这是合理使用。OpenAI 总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI 发言人表示,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。据报道,该公司在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。 、

封面图片

Insanely Fast Whisper-基于OpenAI模型的快速音频转文字工具

Insanely Fast Whisper-基于OpenAI模型的快速音频转文字工具 #AI工具 #GitHub项目 #趣站 #语音转文字 #音频转文字 https://www.ahhhhfs.com/50814/

封面图片

:一个Swift开发包,它将OpenAI流行的Whisper语音识别模型与Apple的CoreML框架集成在一起,可在 Appl

:一个Swift开发包,它将OpenAI流行的Whisper语音识别模型与Apple的CoreML框架集成在一起,可在 Apple 设备上进行高效的本地推理,可通过Swift软件包管理器集成到 Swift 项目中。

封面图片

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化

强制时间对齐的时间戳精确版Whisper语音识别 | 该存储库通过强制使用基于音素的ASR模型(例如wav2vec2.0)来优化openAI的Whisper模型的时间戳,多语言用例。 Whisper是由OpenAI开发的ASR模型,在大型的各种音频数据集上进行训练。虽然它确实会生成高度准确的听录,但相应的时间戳位于话语级别,而不是每个单词,并且可能不准确几秒钟。 基于音素的 ASR一套经过微调的模型,用于识别区分一个单词和另一个单词的最小语音单元,例如“tap”中的元素p。一个流行的示例模型是wav2vec2.0。 强制对齐是指将正字转录与录音对齐以自动生成电话级分段的过程。

封面图片

一个视频翻译工具,可将一种语言的翻译为另一种语言和配音的。 语音识别基于 openai-whisper 离线模型、文字翻

一个视频翻译工具,可将一种语言的视频翻译为另一种语言和配音的视频。 语音识别基于 openai-whisper 离线模型、文字翻译使用google翻译接口,文字合成语音使用 Microsoft Edge tts,背景音乐去除使用 Spleeter,无需购买任何商业接口,也无需付费 | #工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人