OpenAI突然“销毁”了10万多本书,到底发生了什么?

OpenAI突然“销毁”了10万多本书,到底发生了什么? 这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示,这些数据集很可能包含“10万多本已出版书籍”,是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。几个月来,美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示,OpenAI最初以保密为由拒绝提供这些数据集的下落,但最终披露已删除所有数据副本。高质量的训练数据是强大AI模型的重要组成部分。目前,这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型,其中包括许多书籍。许多创造这些数据的公司认为,他们为新的AI产品提供了训练数据,需要获得报酬。但是,科技公司不想被迫付费。这一争执已经引发了多起官司。500亿个单词OpenAI曾在2020年发布过一份白皮书,将图书1和图书2数据集描述为“基于互联网的图书语料库”,并表示它们占据创建GPT-3训练数据的16%。白皮书还表示,图书1和图书2总共包含670亿个数据词元(token),大致相当于500亿个单词。作为比较,《钦定圣经》有783,137个单词。最新解封的法庭文件是OpenAI律师的信函,它被标记为“高度机密-仅限律师查看”。信中说,OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用,它们在2022年年中被删除。信中还说,用于训练GPT-3的其他数据都没有被删除,并允许美国作家协会的律师访问其他数据集。该文件还显示,创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份,随后向美国作家协会的律师确认了这些员工的身份,但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对,认为公众有知情权。目前,争议仍在继续。OpenAI周二在一份声明中表示:“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的,最后一次使用是在2021年,并在2022年因未使用而被删除。” ... PC版: 手机版:

相关推荐

封面图片

美国逾万名影视编剧罢工,导致多个知名电视节目停播。

美国逾万名影视编剧罢工,导致多个知名电视节目停播。 罢工于5月2日开始,超过1.1万名编剧罢工,导致美国影视行业陷入混乱,包括知名主持人吉米·法伦和吉米·坎默尔的招牌脱口秀在内,多个备受欢迎的节目停播。 这是自2007年以来最大规模的一次同类型罢工行动,起因是编剧所属的工会美国作家协会未能与他们的雇主达成加薪协议。编剧寻求借此获得更高薪酬和工作保障。 据《洛杉矶时报》报道,美国作家协会正在为编剧寻求总额达6亿美元的加薪,这一金额还包含了一些其它要求。 (BBC)

封面图片

最新裁决中 OpenAI 获得了莎拉-西尔弗曼的部分诉讼减免

最新裁决中 OpenAI 获得了莎拉-西尔弗曼的部分诉讼减免 法官让原告有机会在 3 月 13 日之前修改他们提出的集体诉讼,以弥补诉状中的缺陷。这起诉讼的核心仍然存在,因为 OpenAI 去年夏天提出的驳回动议并未涉及西尔弗曼未经许可在互联网上复制数百万本图书的直接版权侵权指控。法院尚未确定使用受版权保护的作品来训练人工智能模型是否属于版权法的合理使用原则,从而使这些公司免于承担责任。尽管 Martínez-Olguín 允许提出不正当竞争索赔,但她表示,联邦《版权法》可能会优先考虑该索赔,因为该法禁止州法律提出与版权索赔相同的侵权索赔。这位法官是美国加利福尼亚州北区地方法院的法官,他说:"由于 OpenAI 没有提出优先权问题,因此法院不予考虑。"这一判决与西尔弗曼在同一法院起诉Meta Platforms 公司的人工智能模型 LLaMA 的类似版权案件的判决如出一辙。在该案中,法官驳回了西尔弗曼的大部分附属诉讼请求,而直接的版权侵权诉讼请求则进入了案件的取证阶段。OpenAI 正面临来自全国各地数十位作家的版权诉讼。去年,美国最大的专业作家协会作家协会和《纽约时报》在曼哈顿联邦法院起诉 OpenAI 侵犯版权。Joseph Saveri Law Firm LLP 和 Matthew Butterick 代表西尔弗曼和作者。Latham & Watkins LLP 和 Morrison & Foerster LLP 代表 OpenAI。此案名为Tremblay 诉 OpenAI 公司,加州北区法院,编号 3:23-cv-03223,于 24 年 12 月 2 日部分驳回。 ... PC版: 手机版:

封面图片

OpenAI版权诉讼越来越多 寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多 寻求更多数据来训练人工智能 问题的一部分在于,出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称,将受版权保护的材料放在互联网上使其公开可用,因此属于合理使用。但他们仍必须在法庭上提出这一论点,因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构,有时简称为 CIR,今年早些时候与 Mother Jones 和 Reveal 合并,上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻,以使他们的产品更加强大,但他们从未征求我们的许可或提供补偿,这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平,而且侵犯了版权。”诉讼称,该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中,两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月,作家协会诉讼案的法庭文件显示,OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示,这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称,负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议,以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据,它是人工生成的而不是从现实世界收集的,并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择,但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示: 只要你能跨越合成数据事件视界,让模型足够智能,能够生成良好的合成数据,那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据,另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版: 手机版:

封面图片

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张 OpenAI 的 ChatGPT 使用了海量数据训练,其中包括许多作家的作品。有多位作家提起了集体诉讼,指控 OpenAI 侵犯版权、违反 DMCA、不公平竞争、不当得利、ChatGPT 的每条回复都是衍生作品等等。OpenAI 逐一驳斥了这些主张。OpenAI 认为,作家们误解了版权保护的范围,没有考虑限制和合理使用等例外,版权的限制和例外为大模型等创新留出了空间。创新者以变革的方式使用版权材料并没有侵犯版权。版权法的目的是促进科学和实用艺术的进步,而不是作者所表达想法本身。OpenAI 还以 Google Books 诉讼为例,指出图书中的词频、句法模式和主题标记等统计信息超出了版权保护的范围。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

《三冠王”陈舜臣推理小说集(套装共10册)》

《三冠王”陈舜臣推理小说集(套装共10册)》 描述:陈舜臣,华裔日本作家,1961年获得第7届江户川乱步奖,1969年获得第60届直木奖,1970年获得第23届推理作家协会奖,成为日本文学史上首位“三冠王”。本套装包含:《宿命》 《桃源亭事件》 《孔雀的遗书》 《三色屋事件》《失落的回忆》《悠悠馆密案》《花隈街的迷途》 《分裂者》《大唐探案录之长安风云》 链接: 大小:N 标签:#电子书 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责 OpenAI 使用盗版网站训练 ChatGPT 本周,作者和对 OpenAI 提起集体诉讼,指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等。据作者称,ChatGPT 未经许可就对其受版权保护的作品进行了部分培训。 诉讼中提供的证据看似简单。作者从未授权 OpenAI 使用他们的作品,但 ChatGPT 可以提供他们作品的准确摘要。这些信息一定来自某个地方。 虽然这些类型的指控并不新鲜,但本周的诉讼指控 OpenAI 使用盗版网站作为训练输入。这可能包括Z-Library ,这是一个拥有数百万册盗版图书的影子图书馆。 OpenAI 尚未透露 ChatGPT 训练的数据集,但在一篇较旧的论文中引用了两个数据库;“书籍1”和“书籍2”。第一个包含大约 63,000 个标题,后者包含大约 294,000 个标题。 这些数字孤立起来毫无意义。然而,作者指出,OpenAI 一定使用了盗版资源,因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站,例如、、 和 。 目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致 OpenAI 不得不披露一些训练数据。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人