OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型 就在几天前,YouTube 首席执行官尼尔-莫汉(Neal Mohan)在接受彭博社采访时表示,OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。据《纽约时报》报道,OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频,然后用于训练 GPT-4。The Information此前曾报道,OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。据报道,OpenAI 总裁格雷格-布罗克曼(Greg Brockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(Matt Bryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载 YouTube 内容"是不被允许的,同时他还表示,公司并不知道 OpenAI 使用过此类内容。不过,该报道称,Google有人知道但没有对 OpenAI 采取行动,因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》 ,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在 2022 年 6 月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 ... PC版: 手机版:

相关推荐

封面图片

【《纽约时报》禁止其新闻报道用于人工智能模型训练,考虑起诉 OpenAI】

【《纽约时报》禁止其新闻报道用于人工智能模型训练,考虑起诉 OpenAI】 OpenAI 可能面临《纽约时报》的起诉,原因是该公司使用了《纽约时报》的文章和图片来训练其人工智能模型,这违反了《纽约时报》的服务条款。如果诉讼成功,OpenAI 可能会遭受巨大的损失,包括删除其数据集、支付高额罚款等。《纽约时报》在本月更新了其服务条款,禁止任何使用其内容来开发任何软件程序,包括但不限于训练机器学习或 AI 系统。 快讯/广告 联系 @xingkong888885

封面图片

苹果利用谷歌芯片训练其人工智能模型

苹果利用谷歌芯片训练其人工智能模型 当地时间周一,苹果公司宣布了新的 Apple Intelligence 人工智能服务。但在活动结束后,苹果发布的一份技术文件的细则中明确显示出,谷歌公司已成为在人工智能领域又一个赢家。为了构建苹果的基础人工智能模型,该公司的工程师使用了自主开发的框架和一系列硬件,特别是自己的内部图形处理单元 (GPU) 和只能在谷歌云端使用的张量处理单元 (TPU) 芯片。苹果并未透露其对谷歌芯片和软件的依赖程度,以及对英伟达或其他人工智能供应商硬件的依赖程度。 谷歌已经开发 TPU 大约 10 年了,并公开讨论了可用于人工智能训练的两种第五代芯片;谷歌表示,第五代芯片的性能版本提供的性能可与英伟达 H100 人工智能芯片相媲美。通常谷歌的芯片并不直接出售给客户,只能通过谷歌云进行访问。

封面图片

纽约时报禁止使用其内容来训练人工智能模型

纽约时报禁止使用其内容来训练人工智能模型 《纽约时报》已采取先发制人的措施,阻止其内容被用于训练人工智能模型。据 Adweek 报道,《纽约时报》于 8 月 3 日更新了服务条款,禁止将其内容(包括文字、照片、图像、音频/视频剪辑、“外观和感觉”、元数据或汇编)用于开发“任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统。” 更新后的条款还规定,未经出版物的书面许可,不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示,拒绝遵守这些新限制可能会导致未具体说明的罚款或处罚。尽管在其政策中引入了新规则,但该出版物似乎并未对其 robots.txt 进行任何修改,该文件用于告知搜索引擎爬虫哪些 URL 可以访问。

封面图片

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4 据《纽约时报》报道,OpenAI 公司迫切需要大量训练数据,为此开发了 Whisper音频转录模型来克服困难,转录了超过100万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这在法律上存在问题,但相信这是合理使用。OpenAI 总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI 发言人表示,该公司为其每个模型策划了“独特”的数据集,以“帮助他们了解世界”并保持其全球研究竞争力。并补充说,该公司使用“众多来源,包括公开数据和非公开数据的合作伙伴”,并且正在考虑生成自己的合成数据。据报道,该公司在2021年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。 、

封面图片

谷歌利用 YouTube 开发其下一代人工智能

谷歌利用 YouTube 开发其下一代人工智能 据透露,谷歌的研究人员一直在利用 YouTube 开发其下一个大型语言模型 “双子座Gemini”,该模型展示了在其他任何模型中都看不到的多模态能力。而 OpenAI 也已经秘密地使用了 YouTube 的数据来训练其一些人工智能模型,但谷歌能够拥有 YouTube 更全面的视频数据。人工智能开发者在寻找用于训练和改进模型的高质量数据方面面临着新的障碍。从 Reddit 到 Stack Exchange 再到 DeviantArt 的主要网站出版商正越来越多地阻止开发者为该目的下载数据。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

《纽约时报》已经封锁了OpenAI的网络爬虫,这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。

《纽约时报》已经封锁了OpenAI的网络爬虫,这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。 如果你查看《纽约时报》的页面,你可以看到《纽约时报》不允许使用本月早些时候推出的爬虫GPTBot。根据互联网档案馆的 Wayback Machine,纽约时报似乎早在 8 月 17 日就阻止了爬虫。 这一变化是在《纽约时报》在本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。《纽约时报》发言人查理·斯塔特兰德(Charlie Stadtlander)发言人拒绝置评。OpenAI没有立即回复置评请求。 标签: #NYTimes #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人