科技巨头狂撒千亿美元 “买照片” 只为训练AI模型？

科技巨头狂撒千亿美元“买照片”只为训练AI模型？不只是Photobucket，Reddit、Youtube等知名网站都成了科技巨头们的疯抢目标。苹果为训练AI买图片，网友担忧隐私Photobucket是一个提供影像寄存、视频寄存、幻灯片制作与照片分享服务网站，成立于2003年。在当时，用户把这个网站当作个人相册，与功能与现在流行的在线相册非常相似。在巅峰期，该网站曾拥有7000万用户。而到2007年，Photobucket就声称已有超过28亿张图像上传到其网站。不过随着越来越多的功能更强大的在线相册App出现之后，这种网站式的在线相册也逐渐失去了热度。不过毕竟是一家成立二十多年的网站，别的不说，数据是真的多，130亿张图片与视频，足够AI模型消化很久。据悉，苹果购买的图片的主要目的就是提高生成式AI的水平。除此之外，苹果公司在早些时候与另一家图片素材网站Shutterstock达成了数百万张图片的授权协议，据悉这笔交易的价值在2500万美元到5000万美元之间。随着今年6月份WWDC大会日益临近，每个人都在期待苹果公司能带来“令人惊叹”的AI功能。但和上笔交易不同，不少网友开始为了隐私担心。有人评论表示，Photobucket的图片来源都是基于网友的“托管，这就意外着这些图片虽然已经是陈年老图，但仍属于用户的个人秘密。而Shutterstock的数据大多是免版税的图片、矢量图和插图库，包括影片剪辑以及音乐曲目，本身就可以授权给用户使用。这么一对比，网友对于Photobucket的数据隐私安全问题也可以理解了。除了涉及隐私以外，不少网友还对这些库存照片的质量提出了质疑。如果给AI喂食这些本来就带有错误的图片，那么是否会生成质量更低的图片呢？总之，就苹果购买Photobucket图片的行为，大多数网友并不赞同。但即使冒着泄露隐私的风险，苹果和其他公司们还是得“铤而走险”搞来这些数据。主要原因还是高质量的互联网数据，可能没几年就要耗尽了。其实早在多年前，各大科技巨头就已经碰到训练语料缺失的瓶颈。据《纽约时报》报道，OpenAI在训练GPT-4时，就曾遇到英文文本资料缺失的情况。为了处理这个问题，OpenAI推出一款名为Whisper语音识别工具，用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。据报道称，这款工具以开源的名义转录了超过一百万小时的Youtube视频，实际上已经违反了Youtube的隐私规则，而这些资料也成为ChatGPT的基础。这并不是OpenAI第一次因为偷扒数据犯错。包括《纽约时报》在内，多家数字新闻媒体对OpenAI提起版权侵权诉讼，认为他们的数千篇报道被OpenAI用来训练ChatGPT。当然，通过“爬虫”等手段搜刮训练数据的科技公司不止OpenAI这一家，“受害者”Google也曾通过修改服务条款的方式，将“使用公开信息训练AI模型”偷偷写进隐私细则中，从而允许工程师们利用公开的文档、在线资料等开发AI产品。不过随着OpenAI在版权问题上越陷越深，其他科技巨头也只能乖乖掏钱为训练数据付费。至少比起互联网上免费抓取的数据，Photobucket近130亿的数据量还是相对来说质量更高点。花钱买数据，或许还不够可怕的是，即便是130亿的数据量，也可能喂不饱现在的AI的模型。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。有数据统计，在2020年11月发布的GPT-3上，使用了3000亿个Token的训练数据。而到了2024年，GooglePaLM2的训练数据量则达到3.6万亿个Token。数据量是一回事，数据的质量更是直接影响AI大模型的生成能力。正如网友所担忧的那样，低质量的数据甚至可能让AI陷入不可逆转的方向。面对这样的问题，OpenAI开始尝试使用合成数据（AI生成的数据）来训练AI。这样既可以减少对受版权保护数据的依赖，同时也能训练出更强大的结果。对此OpenAI和一系列机构开始研究使用两个不同的模型来生成更有用、更可靠的合成数据，其中一个模型用来生成数据，另一个则用来对生成的数据进行审核。不只是OpenAI，英伟达很早就在用合成数据弥补现实世界的数据。在2021年11月，英伟达对外推出合成数据生成引擎OmniverseReplicator。英伟达将其描述为“用于生成具有基本事实的合成数据以训练AI网络的引擎”，其作用就是用来训练AI。此产品推出后，由该引擎生成的合成数据在自动驾驶、机器人等多个场景里都得到了验证，因此英伟达也在近些年希望将其推广到更多领域，包括聊天机器人。然而，合成数据在工业场景里的成功案例，并不代表在其他领域都能遵循物理规律。有时候AI连真实图片都无法理解，更不要说理解二次生成的图片了。...PC版：https://www.cnbeta.com.tw/articles/soft/1426842.htm手机版：https://m.cnbeta.com.tw/view/1426842.htm

在Telegram中查看

相关推荐

Hugging Face 开源“世界最大”AI 训练合成数据集 Cosmopedia

HuggingFace开源“世界最大”AI训练合成数据集CosmopediaHuggingFace近日开源了一款名为“Cosmopedia”的 AI 训练数据集，号称是目前世界上最大的合成数据集。该数据集内容均由Mixtral7b模型汇总生成，其中包含大量教科书、博客文章、故事小说、WikiHow教程，共计250亿个Token。HuggingFace表示，这次开源的数据集为0.1版本，未来团队还将持续更新该数据集，推进业界 AI 训练发展。项目地址：消息来源：线索：@ZaiHuabot投稿：@TNSubmbot频道：@TestFlightCN

各大AI模型训练成本大比拼：谷歌Gemini Ultra高达1.9亿美元

各大AI模型训练成本大比拼：谷歌GeminiUltra高达1.9亿美元训练成本是如何确定的？斯坦福大学与研究公司EpochAI合作，根据云计算租金估算了AI模型的训练成本。双方所分析的关键因素包括模型的训练时长、硬件的利用率和训练硬件的价值。尽管许多人猜测，训练AI模型的成本变得越来越高，但缺乏全面的数据来支持这些说法。而斯坦福大学发布的《2024年AI指数报告》正是支持这些说法的罕见来源之一。不断膨胀的训练成本下表展示了自2017年以来，经通胀调整后的主要AI模型的培训成本：去年，OpenAI的GPT-4培训成本估计为7840万美元，远高于谷歌PaLM（540B）的训练成本。谷歌PaLM较GPT-4仅早一年推出，但训练成本为1240万美元。相比之下，2017年开发的早期AI模型Transformer的训练成本为930美元。该模型在塑造当前所使用的许多大型语言模型的体系结构方面起着基础性作用。谷歌的AI模型GeminiUltra的训练成更高，达到了惊人的1.91亿美元。截至2024年初，该模型在几个指标上都超过了GPT-4，最引人注目的是在“大规模多任务语言理解”（MMLU）基准测试中胜出。这一基准是衡量大型语言模型能力的重要标尺。例如，它以评估57个学科领域的知识和解决问题的熟练程度而闻名。训练未来的AI模型鉴于这些挑战，AI公司正在寻找新的解决方案来训练语言模型，以应对不断上涨的成本。其中的方法有多种，比如创建用于执行特定任务的较小模型，而其他一些公司正在试验创建自家的合成数据来“投喂”AI系统。但到目前为止，这方面还没有取得明确的突破。例如，使用合成数据的AI模型有时会“胡言乱语”，引发所谓的“模型崩溃”。...PC版：https://www.cnbeta.com.tw/articles/soft/1433692.htm手机版：https://m.cnbeta.com.tw/view/1433692.htm

科技巨头悄然变更隐私政策以支持AI训练

科技巨头悄然变更隐私政策以支持AI训练一些大型科技公司，如Google、Snap和Meta，正在悄悄更改他们的隐私政策，以便使用用户数据训练人工智能模型。这种做法可能违法，因为美国联邦贸易委员会（FTC）已经警告，公司不应在不通知用户的情况下更改隐私条款。例如，Google在去年对其隐私政策进行了调整，声称使用公开信息来训练其语言AI模型，并开发如GoogleTranslate、Bard（现更名为Gemini）和CloudAI等产品。Adobe也采取了类似行动，但由于用户反馈，不得不发布澄清。Meta曾计划使用公开帖子来训练其AI，但在欧洲数字权利中心的投诉后暂停了这些计划。随着隐私政策的不断变化，监管机构可能需要采取行动来应对这些挑战，确保用户隐私得到妥善保护。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面：OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中，揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施，同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末，正在训练GPT-4的OpenAI遇到了一个棘手的问题，公司已经耗尽了互联网上所有可靠的英文文本资源，而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题，OpenAI的Whisper语音识别工具诞生了——用来转录Google旗下视频平台Youtube的视频音频，生成大量的对话文本。报道称，包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中，并成为聊天机器人ChatGPT的基础。根据Google的政策，禁止用户将平台上的视频用于“独立”应用，同时禁止通过任何自动化手段（爬虫等）访问其视频。有趣的是，在OpenAI偷偷扒Youtube视频时，Google也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此，虽然有Google员工知道OpenAI在这么干，也没有出手阻止。因为一旦Google对OpenAI提出抗议，也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问，OpenAI方面回应称，他们使用了“多个来源”的数据。Google发言人MattBryant则表示，公司对OpenAI的行为一无所知，且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示，公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款，则允许平台使用这些视频开发视频平台的新功能，但这样的措辞是否意味着Google能用这些资料开发商用AI，也存在不小的疑问。与此同时，Meta的内部会议纪要显示，工程师和产品经理讨论了购买美国大型出版商Simon&Schuster以获取长文本资料的计划，另外他们还讨论了从互联网上收集受版权保护的内容，并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉，有Meta的高管表示，OpenAI似乎正在使用受版权保护的材料，所以公司也可以遵循这个“市场先例”。更显性的变化是，Google去年修改了服务条款。根据内部资料显示，推动隐私政策变化的动机之一，包括允许Google利用公开的Google文档、Google地图上的餐厅评论，以及更多在线资料开发AI产品。最终Google赶在美国国庆节（7月4日）放假前的7月1日发布了修改后的隐私条款，将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称，公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI，这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作，近些年来伴随着人们对AI能力的惊叹，越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭，美国著作权局也正在制定版权法在AI时代的适用指南。问题在于，即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”，科技公司用来发展下一代AI的数据依然还是不够。2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）JaredKaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后，“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年，GoogleDeepMind对400个人工智能模型进行测试，其中表现最好的模型（之一），一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年，中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token，GooglePaLM2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题，奥尔特曼已经提出了一种解决方法：像OpenAI这样的公司，最终会转向使用AI生成的数据（也被称为合成数据）来训练AI。这样开发人员在创建愈发强大的技术同时，也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型，能否共同生成更有用、更可靠的合成数据——一个系统产生数据，另一个系统对信息进行评判。当然，这种技术路径是否可行，目前仍存争议。前OpenAI研究员JeffClune认为，这些AI系统所需的数据就像是穿越丛林的路径，如果这些公司只是在合成数据上训练，AI可能会在丛林里迷失。...PC版：https://www.cnbeta.com.tw/articles/soft/1426528.htm手机版：https://m.cnbeta.com.tw/view/1426528.htm

研究人员发现AI模型可生成真人照片和受版权保护的图片

研究人员发现AI模型可生成真人照片和受版权保护的图片研究人员从模型中收集了一千多个训练实例，范围从个人照片到电影剧照、受版权保护的新闻图片和有商标的公司标志，并发现人工智能几乎以相同的方式复制了其中的许多内容。来自普林斯顿大学和伯克利大学等高校的研究人员，以及来自科技部门--特别是Google和DeepMind--的研究人员进行了这项研究。研究团队在之前的研究中指出了人工智能语言模型的类似问题，特别是GPT2，即OpenAI大获成功的ChatGPT的前身。在Google大脑研究员尼古拉斯-卡里尼的指导下，团队通过向Google的Imagen和StableDiffusion提供图片的标题，例如一个人的名字后生成了结果。之后，他们验证了生成的图像是否与模型数据库中保存的原件相符。来自稳定扩散的数据集，即被称为LAION的多TB采集图片集，被用来生成下面的图片。它使用了数据集中指定的标题。当研究人员在提示框中输入标题时会产生了相同的图像，尽管因数字噪音而略有扭曲。接下来，研究小组在反复执行相同的提示后，手动验证了该图像是否是训练集的一部分。研究人员指出，非记忆性的回应仍然可以忠实地表现出模型所提示的文字，但不会有相同的像素构成，并且会与其它训练生成的图像不同。苏黎世联邦理工学院计算机科学教授和研究参与者FlorianTramèr观察到了研究结果的重大局限性。研究人员能够提取的照片要么在训练数据中频繁出现，要么在数据集中的其他照片中明显突出。根据弗洛里安-特拉梅尔的说法，那些不常见的名字或外表的人更有可能被"记住"。研究人员表示，扩散式人工智能模型是最不隐私的一种图像生成模型。与生成对抗网络（GANs），一类较早的图片模型相比，它们泄露的训练数据是前者的两倍多。这项研究的目的是提醒开发者注意与扩散模型相关的隐私风险，其中包括各种担忧，如滥用和复制受版权保护的敏感私人数据（包括医疗图像）的可能性，以及在训练数据容易被提取的情况下易受外部攻击。研究人员建议的修复方法是识别训练集中重复生成的照片，并从数据收集中删除它们。...PC版：https://www.cnbeta.com.tw/articles/soft/1342757.htm手机版：https://m.cnbeta.com.tw/view/1342757.htm

Adobe 使用 Midjourney 数据，训练文生图模型

据彭博社报道，Adobe正在使用Midjourney的图片，训练其文生图模型Firefly。消息人士透露，关于使用Midjourney的AI生成图片来训练Firefly模型在Adobe内部一直存在非常大的分歧。即使在Firefly开发的早期阶段，一些员工也不同意Adobe将AI生成的图像纳入到Firefly训练数据中。在用于训练Firefly的AdobeStock数据库中，有5700万条数据被标记为AI生成的，这约占数据库中图像总数的14%。而此前Adobe发言人指出，用于训练Firefly的图像中只有5%来自其他平台创建的AI图像。标签:#Adobe#AI频道:@GodlyNews1投稿:@Godlynewsbot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人