OpenAI突然“销毁”了10万多本书，到底发生了什么？

OpenAI突然“销毁”了10万多本书，到底发生了什么？这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示，这些数据集很可能包含“10万多本已出版书籍”，是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。几个月来，美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示，OpenAI最初以保密为由拒绝提供这些数据集的下落，但最终披露已删除所有数据副本。高质量的训练数据是强大AI模型的重要组成部分。目前，这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型，其中包括许多书籍。许多创造这些数据的公司认为，他们为新的AI产品提供了训练数据，需要获得报酬。但是，科技公司不想被迫付费。这一争执已经引发了多起官司。500亿个单词OpenAI曾在2020年发布过一份白皮书，将图书1和图书2数据集描述为“基于互联网的图书语料库”，并表示它们占据创建GPT-3训练数据的16%。白皮书还表示，图书1和图书2总共包含670亿个数据词元(token)，大致相当于500亿个单词。作为比较，《钦定圣经》有783,137个单词。最新解封的法庭文件是OpenAI律师的信函，它被标记为“高度机密-仅限律师查看”。信中说，OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用，它们在2022年年中被删除。信中还说，用于训练GPT-3的其他数据都没有被删除，并允许美国作家协会的律师访问其他数据集。该文件还显示，创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份，随后向美国作家协会的律师确认了这些员工的身份，但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对，认为公众有知情权。目前，争议仍在继续。OpenAI周二在一份声明中表示：“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的，最后一次使用是在2021年，并在2022年因未使用而被删除。” ... PC版：手机版：

在Telegram中查看

相关推荐

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能问题的一部分在于，出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其公开可用，因此属于合理使用。但他们仍必须在法庭上提出这一论点，因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构，有时简称为 CIR，今年早些时候与 Mother Jones 和 Reveal 合并，上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻，以使他们的产品更加强大，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平，而且侵犯了版权。”诉讼称，该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中，两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月，作家协会诉讼案的法庭文件显示，OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示，这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称，负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议，以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据，它是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择，但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示：只要你能跨越合成数据事件视界，让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据，另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版：手机版：

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张 OpenAI 的 ChatGPT 使用了海量数据训练，其中包括许多作家的作品。有多位作家提起了集体诉讼，指控 OpenAI 侵犯版权、违反 DMCA、不公平竞争、不当得利、ChatGPT 的每条回复都是衍生作品等等。OpenAI 逐一驳斥了这些主张。OpenAI 认为，作家们误解了版权保护的范围，没有考虑限制和合理使用等例外，版权的限制和例外为大模型等创新留出了空间。创新者以变革的方式使用版权材料并没有侵犯版权。版权法的目的是促进科学和实用艺术的进步，而不是作者所表达想法本身。OpenAI 还以 Google Books 诉讼为例，指出图书中的词频、句法模式和主题标记等统计信息超出了版权保护的范围。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

《三冠王”陈舜臣推理小说集（套装共10册）》

《三冠王”陈舜臣推理小说集（套装共10册）》描述：陈舜臣，华裔日本作家，1961年获得第7届江户川乱步奖，1969年获得第60届直木奖，1970年获得第23届推理作家协会奖，成为日本文学史上首位“三冠王”。本套装包含：《宿命》《桃源亭事件》《孔雀的遗书》《三色屋事件》《失落的回忆》《悠悠馆密案》《花隈街的迷途》《分裂者》《大唐探案录之长安风云》链接：大小：N 标签：#电子书来自：雷锋频道：@Aliyundrive_Share_Channel 群组：@alyd_g 投稿：@AliYunPanBot

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责 OpenAI 使用盗版网站训练 ChatGPT 本周，作者和对 OpenAI 提起集体诉讼，指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等。据作者称，ChatGPT 未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权 OpenAI 使用他们的作品，但 ChatGPT 可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控 OpenAI 使用盗版网站作为训练输入。这可能包括Z-Library ，这是一个拥有数百万册盗版图书的影子图书馆。 OpenAI 尚未透露 ChatGPT 训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约 63,000 个标题，后者包含大约 294,000 个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI 一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致 OpenAI 不得不披露一些训练数据。

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4 据《纽约时报》报道，OpenAI 公司迫切需要大量训练数据，为此开发了 Whisper音频转录模型来克服困难，转录了超过100万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。该公司知道这在法律上存在问题，但相信这是合理使用。OpenAI 总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI 发言人表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。据报道，该公司在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人