OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube 首席执行官尼尔-莫汉（Neal Mohan）在接受彭博社采访时表示，OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。据《纽约时报》报道，OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频，然后用于训练 GPT-4。The Information此前曾报道，OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。据报道，OpenAI 总裁格雷格-布罗克曼（Greg Brockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（Matt Bryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载 YouTube 内容"是不被允许的，同时他还表示，公司并不知道 OpenAI 使用过此类内容。不过，该报道称，Google有人知道但没有对 OpenAI 采取行动，因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在 2022 年 6 月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 ... PC版：手机版：

在Telegram中查看

相关推荐

纽约时报禁止使用其内容来训练人工智能模型

纽约时报禁止使用其内容来训练人工智能模型《纽约时报》已采取先发制人的措施，阻止其内容被用于训练人工智能模型。据 Adweek 报道，《纽约时报》于 8 月 3 日更新了服务条款，禁止将其内容（包括文字、照片、图像、音频/视频剪辑、“外观和感觉”、元数据或汇编）用于开发“任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统。” 更新后的条款还规定，未经出版物的书面许可，不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示，拒绝遵守这些新限制可能会导致未具体说明的罚款或处罚。尽管在其政策中引入了新规则，但该出版物似乎并未对其 robots.txt 进行任何修改，该文件用于告知搜索引擎爬虫哪些 URL 可以访问。

苹果利用谷歌芯片训练其人工智能模型

苹果利用谷歌芯片训练其人工智能模型当地时间周一，苹果公司宣布了新的 Apple Intelligence 人工智能服务。但在活动结束后，苹果发布的一份技术文件的细则中明确显示出，谷歌公司已成为在人工智能领域又一个赢家。为了构建苹果的基础人工智能模型，该公司的工程师使用了自主开发的框架和一系列硬件，特别是自己的内部图形处理单元 (GPU) 和只能在谷歌云端使用的张量处理单元 (TPU) 芯片。苹果并未透露其对谷歌芯片和软件的依赖程度，以及对英伟达或其他人工智能供应商硬件的依赖程度。谷歌已经开发 TPU 大约 10 年了，并公开讨论了可用于人工智能训练的两种第五代芯片；谷歌表示，第五代芯片的性能版本提供的性能可与英伟达 H100 人工智能芯片相媲美。通常谷歌的芯片并不直接出售给客户，只能通过谷歌云进行访问。

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4 据《纽约时报》报道，OpenAI 公司迫切需要大量训练数据，为此开发了 Whisper音频转录模型来克服困难，转录了超过100万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这在法律上存在问题，但相信这是合理使用。OpenAI 总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI 发言人表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。据报道，该公司在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。、

《纽约时报》已经封锁了OpenAI的网络爬虫，这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。

《纽约时报》已经封锁了OpenAI的网络爬虫，这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。如果你查看《纽约时报》的页面，你可以看到《纽约时报》不允许使用本月早些时候推出的爬虫GPTBot。根据互联网档案馆的 Wayback Machine，纽约时报似乎早在 8 月 17 日就阻止了爬虫。这一变化是在《纽约时报》在本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。《纽约时报》发言人查理·斯塔特兰德（Charlie Stadtlander）发言人拒绝置评。OpenAI没有立即回复置评请求。标签: #NYTimes #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

谷歌利用 YouTube 开发其下一代人工智能

谷歌利用 YouTube 开发其下一代人工智能据透露，谷歌的研究人员一直在利用 YouTube 开发其下一个大型语言模型 “双子座Gemini”，该模型展示了在其他任何模型中都看不到的多模态能力。而 OpenAI 也已经秘密地使用了 YouTube 的数据来训练其一些人工智能模型，但谷歌能够拥有 YouTube 更全面的视频数据。人工智能开发者在寻找用于训练和改进模型的高质量数据方面面临着新的障碍。从 Reddit 到 Stack Exchange 再到 DeviantArt 的主要网站出版商正越来越多地阻止开发者为该目的下载数据。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能问题的一部分在于，出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其公开可用，因此属于合理使用。但他们仍必须在法庭上提出这一论点，因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构，有时简称为 CIR，今年早些时候与 Mother Jones 和 Reveal 合并，上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻，以使他们的产品更加强大，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平，而且侵犯了版权。”诉讼称，该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中，两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月，作家协会诉讼案的法庭文件显示，OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示，这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称，负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议，以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据，它是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择，但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示：只要你能跨越合成数据事件视界，让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据，另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人