消息称谷歌和 Meta 为训练 AI，砸钱向好莱坞电影公司购买内容

消息称谷歌和 Meta 为训练 AI，砸钱向好莱坞电影公司购买内容

消息称谷歌和 Meta 为训练 AI，砸钱向好莱坞电影公司购买内容在 OpenAI 和新闻集团签署多年合作之后，最新消息称 Meta 和谷歌母公司 Alphabet 正寻求和好莱坞电影公司达成协议，使用其相关内容。消息称两家巨头公司已经接触洽谈了多家好莱坞电影公司，涉及的交易高达数百万美元。这些交易可以这两家公司获得授权的视频内容，以训练他们的人工智能模型。 Netflix、迪斯尼和华纳兄弟等电影公司都曾参与其中。前两家都不太愿意加入，不过也没有断然拒绝，只是希望其它的合作方式。华纳兄弟似乎对这一想法持更开放的态度，Alphabet 或 Meta 可能会获得其内容的使用权。目前，有关这些交易的细节还非常少。我们不知道哪些公司将获得这些内容，Netflix 和迪斯尼希望达成什么样的交易，也不知道这些合作是否会成功。来源，频道：@kejiqu 群组：@kejiquchat

Reddit的神秘买家是谷歌斥资6000万美元/年购买内容训练AI

Reddit的神秘买家是谷歌斥资6000万美元/年购买内容训练AI 而这些内容将成为 Reddit 的摇钱树，彭博社此前已经提到 Reddit 与某个科技公司达成合作，后者每年将向 Reddit 提供 6000 万美元的资金，以获取 Reddit 的内容用来训练 AI。今天汤森路透发布文章透露这个神秘买家其实就是Google，其实这个不是特别让人惊讶，毕竟每年能出得起 6000 万美元买内容的科技公司没几个，只不过没想到不是苹果而是Google。Reddit 最早可能在本周向美国监管机构提交 IPO 文件，Reddit 计划在上市后出售 10% 的股份。对Google来说 6000 万美元的资金不算太多，但全部用来购买内容的话其实也不算少了，毕竟现在Google都在用 YouTube 视频训练 AI，可见Google多么希望能够获得更多内容来训练。这段时间Google还在裁员，节省下来的资金用来投资 AI，追赶 OPENAI 和Google，至少从目前来看，在 AI 领域Google还是落后于 OPENAI 和微软的。目前 Reddit 和Google都没有就内容合作传闻发布回应。 ... PC版：手机版：

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人Matt Bryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon & Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）Jared Kaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM 2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前 OpenAI 研究员Jeff Clune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。 ... PC版：手机版：

Meta 承认使用盗版书籍来训练 AI，并拒绝赔偿作家 - IT之家

消息称 OpenAI 挖角谷歌员工开发 AI 搜索引擎 - IT之家

Microsoft AI CEO 称在线内容是训练 AI 模型的免费食物

Microsoft AI CEO 称在线内容是训练 AI 模型的免费食物过去几个月，版权所有者对 OpenAI 及其主要投资者微软提起了多起侵权诉讼。微软 AI CEO Mustafa Suleyman 接受采访时对此表示，机器学习公司能抓取大部分在线内容，用其训练神经网络，因为这些内容本质上“免费软件”。他说，对于已在开放 Web 上的内容，自 1990 年代以来其社会契约一直是合理使用（fair use），任何人都能拷贝，重新创作，再制作。它们就是免费软件。OpenAI 等 AI 公司正与主要版权所有者签署内容协议。换句话说，对于将内容发布在网络上的普通人，除非他们有能挑战微软或将微软拉到谈判桌上的律师，那么他们创作的内容就是“免费软件”。Suleyman 预测的未来是知识生产成本将降至零边际成本，信息经济学将发生根本性改变。 via Solidot

消息称谷歌和 Meta 为训练 AI，砸钱向好莱坞电影公司购买内容 - IT之家

相关推荐