AI产业的灰暗面:OpenAI、谷歌、Meta如何获取训练语料

AI产业的灰暗面:OpenAI、谷歌、Meta如何获取训练语料《纽约时报》在本周末刊发的调查报道中,揭露了OpenAI、Google、Meta等公司为了获取训练语料所采取的一些“走捷径”措施,同时也展现了整个行业迫在眉睫的困境。美国科技巨头各走“捷径”2021年末,正在训练GPT-4的OpenAI遇到了一个棘手的问题,公司已经耗尽了互联网上所有可靠的英文文本资源,而他们需要更多、更大规模的数据来训练更强大的模型。为了处理这个问题,OpenAI的Whisper语音识别工具诞生了——用来转录Google旗下视频平台Youtube的视频音频,生成大量的对话文本。报道称,包括OpenAI总裁布洛克曼在内的团队总共转录了超过一百万小时的Youtube视频。随后这些资料被输入到GPT-4系统中,并成为聊天机器人ChatGPT的基础。根据Google的政策,禁止用户将平台上的视频用于“独立”应用,同时禁止通过任何自动化手段(爬虫等)访问其视频。有趣的是,在OpenAI偷偷扒Youtube视频时,Google也在转录自家流媒体平台的内容训练大模型——同样冒着侵犯版权的风险。正因如此,虽然有Google员工知道OpenAI在这么干,也没有出手阻止。因为一旦Google对OpenAI提出抗议,也有可能“引火烧身”到自己身上。对于是否采用Youtube视频训练AI的询问,OpenAI方面回应称,他们使用了“多个来源”的数据。Google发言人MattBryant则表示,公司对OpenAI的行为一无所知,且禁止任何人“未经授权抓取或下载Youtube视频”。不过Bryant也表示,公司只会在有明确法律、技术依据时才会采取行动。Google自家的条款,则允许平台使用这些视频开发视频平台的新功能,但这样的措辞是否意味着Google能用这些资料开发商用AI,也存在不小的疑问。与此同时,Meta的内部会议纪要显示,工程师和产品经理讨论了购买美国大型出版商Simon&Schuster以获取长文本资料的计划,另外他们还讨论了从互联网上收集受版权保护的内容,并表示“与出版商、艺术家、音乐家和新闻行业谈判授权需要的时间太多了”。据悉,有Meta的高管表示,OpenAI似乎正在使用受版权保护的材料,所以公司也可以遵循这个“市场先例”。更显性的变化是,Google去年修改了服务条款。根据内部资料显示,推动隐私政策变化的动机之一,包括允许Google利用公开的Google文档、Google地图上的餐厅评论,以及更多在线资料开发AI产品。最终Google赶在美国国庆节(7月4日)放假前的7月1日发布了修改后的隐私条款,将“使用公开信息训练AI模型”首次纳入其中。Bryant回应称,公司不会在没有用户“明确许可”的情况下使用他们的Google文档来训练AI,这里指的是自愿参与的实验性功能体验计划。即便如此还是不够正因为这些操作,近些年来伴随着人们对AI能力的惊叹,越来越多的版权方也开始意识到自己的数据被偷偷拿走训练AI了。包括《纽约时报》、一些电影制作人和作家已经将这些科技公司告上法庭,美国著作权局也正在制定版权法在AI时代的适用指南。问题在于,即便一些作家、制片人将科技公司的行为称为“美国史上最大盗窃案”,科技公司用来发展下一代AI的数据依然还是不够。2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)JaredKaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。2020年11月发布的GPT-3包含约3000亿个Token的训练数据。2022年,GoogleDeepMind对400个人工智能模型进行测试,其中表现最好的模型(之一),一个名为Chinchilla的模型用了1.4万亿个Token的数据。到2023年,中国科学家开发的Skywork大模型在训练中使用了3.2万亿个英文和中文Token,GooglePaLM2的训练数据量则达到3.6万亿个Token。研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。面对这样的问题,奥尔特曼已经提出了一种解决方法:像OpenAI这样的公司,最终会转向使用AI生成的数据(也被称为合成数据)来训练AI。这样开发人员在创建愈发强大的技术同时,也会减少对受版权保护数据的依赖。目前OpenAI和一系列机构也正在研究使用两个不同的模型,能否共同生成更有用、更可靠的合成数据——一个系统产生数据,另一个系统对信息进行评判。当然,这种技术路径是否可行,目前仍存争议。前OpenAI研究员JeffClune认为,这些AI系统所需的数据就像是穿越丛林的路径,如果这些公司只是在合成数据上训练,AI可能会在丛林里迷失。...PC版:https://www.cnbeta.com.tw/articles/soft/1426528.htm手机版:https://m.cnbeta.com.tw/view/1426528.htm

相关推荐

封面图片

谷歌CEO皮查伊:OpenAI使用YouTube训练AI将遭法律追究

谷歌CEO皮查伊:OpenAI使用YouTube训练AI将遭法律追究近日,谷歌CEO桑达尔·皮查伊就微软支持的OpenAI使用YouTube内容训练AI模型一事表态。皮查伊明确表示,如果OpenAI确实依赖YouTube视频来训练其能够生成视频的人工智能模型,谷歌将采取相应的法律行动来解决这一问题。此前有报道称,OpenAI首席技术官在接受媒体采访时对Sora训练数据的来源含糊其辞,甚至在追问是否包含YouTube视频时表示“并不确定”。这引发了业界对于OpenAI是否违反谷歌服务条款的猜疑。皮查伊对此表示,这是OpenAI需要回答的问题,同时强调谷歌有明确的服务条款,并将与相关公司进行接触以确保条款得到遵守。他进一步指出,谷歌将积极处理任何潜在的服务条款违规行为。来源,频道:@kejiqu群组:@kejiquchat

封面图片

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前,YouTube首席执行官尼尔-莫汉(NealMohan)在接受彭博社采访时表示,OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道,OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频,然后用于训练GPT-4。TheInformation此前曾报道,OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道,OpenAI总裁格雷格-布罗克曼(GregBrockman)也是这个团队的成员之一。Google发言人马特-布莱恩特(MattBryant)告诉《纽约时报》,根据Google的规定,"未经授权采集或下载YouTube内容"是不被允许的,同时他还表示,公司并不知道OpenAI使用过此类内容。不过,该报道称,Google有人知道但没有对OpenAI采取行动,因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》,它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称,Google在2022年6月调整了其隐私政策,以更广泛地涵盖使用公开内容(包括Google文档和Google工作表)来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》,只有在选择使用Google实验功能的用户允许的情况下,Google才会这样做,而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版:https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版:https://m.cnbeta.com.tw/view/1426406.htm

封面图片

【Elon Musk:xAI将与微软、谷歌、OpenAI竞争;将使用公共数据进行AI模型训练】

【ElonMusk:xAI将与微软、谷歌、OpenAI竞争;将使用公共数据进行AI模型训练】2023年07月16日09点30分老不正经报道,,ElonMusk表示,他的新公司肯定会与OpenAI竞争,在AGI领域提供比微软、谷歌、OpenAI产品更有竞争力的替代方案。xAI仍处于萌芽阶段(embryonic),要赶上OpenAI和谷歌还需要时间。同时,在AI模型训练方面,他们会使用公共数据而非私人数据。xAI计划构建一个超级智能人工智能,帮助解决复杂的科学和数学问题,并“理解”宇宙。OpenAI最初的目标是开源和非营利,但因为“命运喜欢讽刺”,OpenAI是闭源的,“对利润很贪婪”。就AI算力方面,他们同样需要算力支持,但或许会略少于其他公司。

封面图片

字节跳动被曝使用ChatGPT训练自家AI,被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI,被OpenAI封禁据外媒TheVerge报道,中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型,并在名为“豆包”的聊天机器人提供相关服务。外媒报道称,字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称,在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称,GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称,国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

封面图片

训练 ChatGPT 等模型不付钱?美国新闻集团拟起诉微软、谷歌、OpenAI

训练ChatGPT等模型不付钱?美国新闻集团拟起诉微软、谷歌、OpenAI华尔街日报报道,AI技术的发展已经引发了新闻出版业的不满,他们认为自己的内容被大型科技公司用于训练AI模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向OpenAI、微软和谷歌等公司提起诉讼,要求赔偿其内容在ChatGPT、Bard等AI工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题,涉及到AI公司是否有权从互联网上抓取内容,并将其输入到训练模型中。一些批评者认为,这是一种工业规模的知识产权盗窃行为。出版商担心,AI工具可能会影响他们网站的流量和广告收入。事实上,AI版权问题并非始于ChatGPT。在图像和代码方面,已经有多起诉讼案件涉及到AI模型训练使用受版权保护的数据。例如,Midjourney、StabilityAI、微软、GitHub以及OpenAI都曾卷入相关纠纷。目前,对于AI创作是否受版权保护还没有形成固定的准则。法律人士认为,所有针对生成式AI的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可,或许是最好的解决办法。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

OpenAI 使用超过一百万小时的 YouTube 视频训练 GPT-4

本周早些时候,《华尔街日报》报道称,AI公司在收集高质量训练数据时遇到了难题。今天,《》详细介绍了一些公司如何处理这个问题。不出所料,这涉及到了执行一些处于AI版权法模糊地带的事情。这个故事开始于OpenAI,报道称这家公司急于获取训练数据,开发了Whisper音频转录模型来克服这一难关,用超过一百万小时的YouTube视频来训练他们最先进的大型语言模型GPT-4。这是根据《纽约时报》的报道,该公司知道这在法律上是有争议的,但他们认为这属于合理使用。OpenAI总裁格雷格·布罗克曼亲自参与收集了被使用的视频,《纽约时报》如是写道。OpenAI的发言人LindsayHeld在给TheVerge的一封邮件中表示,该公司为其每一个模型策划了“独特”的数据集来“帮助他们理解世界”并保持全球研究竞争力。Held补充说,该公司使用了“包括公开可用数据和非公开数据的合作伙伴关系在内的众多来源”,并且它正在考虑生成自己的合成数据。《纽约时报》的文章还表示,该公司在2021年耗尽了有用的数据供应,并在消耗其他资源后讨论了转录YouTube视频、播客和有声书。那时,它已经在包括Github上的计算机代码、国际象棋移动数据库和Quizlet上的学校作业内容在内的数据上训练了其模型。谷歌发言人马特·布莱恩特在一封给TheVerge的电子邮件中表示,公司已经“看到了有关OpenAI活动的未经证实的报道”,并补充说,“我们的robots.txt文件和服务条款禁止未经授权的抓取或下载YouTube内容”,这与公司的使用条款相呼应。YouTube首席执行官尼尔·莫汉本周对OpenAI可能使用YouTube训练其Sora视频生成模型的可能性发表了类似的看法。布莱恩特表示,谷歌采取了“技术和法律措施”来阻止这种未授权的使用,“当我们有明确的法律或技术依据时”。标签:#OpenAI#版权频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人