OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4
本周早些时候,《华尔街日报》报道称,AI公司在收集高质量训练数据时遇到了难题。今天,《》详细介绍了一些公司如何处理这个问题。不出所料,这涉及到了执行一些处于AI版权法模糊地带的事情。这个故事开始于OpenAI,报道称这家公司急于获取训练数据,开发了Whisper音频转录模型来克服这一难关,用超过一百万小时的YouTube视频来训练他们最先进的大型语言模型GPT-4。这是根据《纽约时报》的报道,该公司知道这在法律上是有争议的,但他们认为这属于合理使用。OpenAI总裁格雷格·布罗克曼亲自参与收集了被使用的视频,《纽约时报》如是写道。OpenAI的发言人LindsayHeld在给TheVerge的一封邮件中表示,该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held补充说,该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”,并且它正在考虑生成自己的合成数据。《纽约时报》的文章还表示,该公司在2021年耗尽了有用的数据供应,并在消耗其他资源后讨论了转录YouTube视频、播客和有声书。那时,它已经在包括Github上的计算机代码、国际象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。谷歌发言人马特·布莱恩特在一封给TheVerge的电子邮件中表示,公司已经“看到了有关OpenAI活动的未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”,这与公司的使用条款相呼应。YouTube首席执行官尼尔·莫汉本周对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似的看法。布莱恩特表示,谷歌采取了“技术和法律措施”来阻止这种未授权的使用,“当我们有明确的法律或技术依据时”。标签:#OpenAI#版权频道:@GodlyNews1投稿:@GodlyNewsBot
在Telegram中查看相关推荐
![](https://soso.news/wp-content/uploads/2023/09/coin-300x85.png)
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人