AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人Matt Bryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）Jared Kaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM 2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前 OpenAI 研究员Jeff Clune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。 ... PC版：手机版：

在Telegram中查看

相关推荐

谷歌CEO皮查伊：OpenAI使用YouTube训练AI将遭法律追究

谷歌CEO皮查伊：OpenAI使用YouTube训练AI将遭法律追究近日，谷歌CEO桑达尔·皮查伊就微软支持的OpenAI使用YouTube内容训练AI模型一事表态。皮查伊明确表示，如果OpenAI确实依赖YouTube视频来训练其能够生成视频的人工智能模型，谷歌将采取相应的法律行动来解决这一问题。此前有报道称，OpenAI首席技术官在接受媒体采访时对Sora训练数据的来源含糊其辞，甚至在追问是否包含YouTube视频时表示“并不确定”。这引发了业界对于OpenAI是否违反谷歌服务条款的猜疑。皮查伊对此表示，这是OpenAI需要回答的问题，同时强调谷歌有明确的服务条款，并将与相关公司进行接触以确保条款得到遵守。他进一步指出，谷歌将积极处理任何潜在的服务条款违规行为。来源，频道：@kejiqu 群组：@kejiquchat

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI 华尔街日报报道，AI 技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到 AI 公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI 工具可能会影响他们网站的流量和广告收入。事实上，AI 版权问题并非始于 ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到 AI 模型训练使用受版权保护的数据。例如，Midjourney、Stability AI、微软、GitHub 以及 OpenAI 都曾卷入相关纠纷。目前，对于 AI 创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式 AI 的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube 首席执行官尼尔-莫汉（Neal Mohan）在接受彭博社采访时表示，OpenAI 据称使用 YouTube 视频来训练其新的文本到视频生成器 Sora 将违反该平台的政策。据《纽约时报》报道，OpenAI 使用其 Whisper 语音识别工具转录了超过 100 万小时的 YouTube 视频，然后用于训练 GPT-4。The Information此前曾报道，OpenAI 曾使用 YouTube 视频和播客来训练这两个人工智能系统。据报道，OpenAI 总裁格雷格-布罗克曼（Greg Brockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（Matt Bryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载 YouTube 内容"是不被允许的，同时他还表示，公司并不知道 OpenAI 使用过此类内容。不过，该报道称，Google有人知道但没有对 OpenAI 采取行动，因为Google自己也正在使用 YouTube 视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在 2022 年 6 月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 ... PC版：手机版：

微软、OpenAI等公司已使用合成数据来训练AI模型

微软、OpenAI等公司已使用合成数据来训练AI模型金十数据7月20日讯，人工智能初创公司Cohere首席执行官AidenGomez表示，由于Reddit、推特等公司的数据采集要价太高，微软、OpenAI和Cohere等公司，已使用合成数据来训练AI模型。Gomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。来源：https://flash.jin10.com/detail/20230720104640322100 via 匿名标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权喜剧演员 Sarah Silverman 以及两名作家 Richard Kadrey 和 Christopher Golden 向旧金山联邦法院提起集体诉讼，指控 Meta 和 OpenAI 使用受版权保护的材料训练 AI 聊天机器人。诉讼凸显了生成式 AI 工具所面临的法律风险。Silverman、Kadrey 和 Golden 指控 Meta 和 OpenAI 未经授权使用其书籍开发大语言模型。在针对 Meta 的诉讼中，原告称泄露的该公司 AI 业务信息显示他们的作品未经许可被使用。针对 OpenAI 的诉讼称，ChatGPT 生成的原告作品摘要表明它接受了受版权保护内容的训练。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI 称不用版权材料是不可能创造出类似 ChatGPT 的 AI 工具

OpenAI 称不用版权材料是不可能创造出类似 ChatGPT 的 AI 工具 OpenAI 称不用版权材料是不可能创造出 ChatGPT 之类的 AI 工具。ChatGPT 等聊天机器人和 Stable Diffusion 等图像生成工具都利用了从互联网上获取的大量数据进行训练，其中大部分数据是受版权保护的。《纽约时报》上个月起诉了 OpenAI 及其主要投资者微软，称它们“非法使用”其作品创建 AI 产品。OpenAI 在给英国上议院通信数字特别委员会的文件中表示，如果不能获得版权材料，它将无法训练 GPT-4 等大语言模型。如果将模型训练仅限于公共领域的作品和图像，得到 AI 系统将无法满足现代公民的需求。OpenAI 认为，从法律上说，版权法并不禁止训练。来源，频道：@kejiqu 群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人