OpenAI突然“销毁”了10万多本书，到底发生了什么？

OpenAI突然“销毁”了10万多本书，到底发生了什么？这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示，这些数据集很可能包含“10万多本已出版书籍”，是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。几个月来，美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示，OpenAI最初以保密为由拒绝提供这些数据集的下落，但最终披露已删除所有数据副本。高质量的训练数据是强大AI模型的重要组成部分。目前，这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型，其中包括许多书籍。许多创造这些数据的公司认为，他们为新的AI产品提供了训练数据，需要获得报酬。但是，科技公司不想被迫付费。这一争执已经引发了多起官司。500亿个单词OpenAI曾在2020年发布过一份白皮书，将图书1和图书2数据集描述为“基于互联网的图书语料库”，并表示它们占据创建GPT-3训练数据的16%。白皮书还表示，图书1和图书2总共包含670亿个数据词元(token)，大致相当于500亿个单词。作为比较，《钦定圣经》有783,137个单词。最新解封的法庭文件是OpenAI律师的信函，它被标记为“高度机密-仅限律师查看”。信中说，OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用，它们在2022年年中被删除。信中还说，用于训练GPT-3的其他数据都没有被删除，并允许美国作家协会的律师访问其他数据集。该文件还显示，创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份，随后向美国作家协会的律师确认了这些员工的身份，但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对，认为公众有知情权。目前，争议仍在继续。OpenAI周二在一份声明中表示：“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的，最后一次使用是在2021年，并在2022年因未使用而被删除。”...PC版：https://www.cnbeta.com.tw/articles/soft/1430047.htm手机版：https://m.cnbeta.com.tw/view/1430047.htm

在Telegram中查看

相关推荐

版权大战迎来高潮美国作家协会对OpenAI发起集体诉讼

版权大战迎来高潮美国作家协会对OpenAI发起集体诉讼（注：起诉书）美国作家协会声称，OpenAI公司在未经许可或未支付报酬的情况下批量复制他们的作品，并将受版权保护的材料输入大型语言模型。“这些算法是被告企业的核心，而算法的核心则来源于大规模、系统性的窃取。”起诉书称，作家的生计依靠他们创作的作品，但人工智能模型对此造成了伤害，OpenAI的大型语言模型允许任何人总结或改写他们书籍的衍生作品，这可能会损害作家的利益。据悉，美国作家协会代表迈克尔·康纳利、斯科特·图罗、乔纳森·弗兰岑、约翰·格里沙姆、乔迪·皮科特、乔治·马丁等诸多知名作家在纽约南区提起诉讼。据了解，除了OpenAI之外，针对MetaPlatforms和StabilityAI等人工智能企业的诉讼也在处理中。而OpenAI和其他人工智能公司此前表示，根据美国版权法，他们从互联网上收集的训练数据符合“合理使用”的范围，不会构成侵权。美国作家协会的首席执行官玛丽·拉森伯格周三在一份声明中表示，为了保护我们的文学作品，作家必须有能力控制他们的作品是否以及如何被生成式人工智能使用。起诉书中还提到，ChatGPT能够生成作者作品的准确摘要，表明他们的文本内容已包含在其数据库中。该组织还提到了其他方面的担忧，ChatGPT等人工智能工具现在能够快速、廉价地产生大量令人信服的文本，这些工具可能会取代作家。值得注意的是，已经发生了一系列人工智能“伪造”知名作家新书公然售卖的事件。此外，早在7月份，就有1万多名作家签署一封信，要求微软、MetaPlatforms和Alphabet等公司领导者不要在未经许可或未支付报酬的情况下使用这些作家的作品训练人工智能系统。信中提到：“数以百万计受版权保护的书籍、文章、散文和诗歌为人工智能系统提供了‘食物’，这些无穷无尽的‘大餐’却没有任何账单。你们花费数以十亿美元计的资金开发人工智能技术。你们使用我们的作品应该支付补偿，这样才是公平的，没有这些作品，人工智能将是平庸和非常有局限性的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1385335.htm手机版：https://m.cnbeta.com.tw/view/1385335.htm

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型OpenAI是近期爆火的AI聊天机器人ChatGPT的开发商，而阿尔特曼提到的“大语言模型”就是ChatGPT背后的关键技术。据了解，开发商在训练大语言模型时需要摄取网络上的海量数据，才能提高模型生成自然语言的能力。阿尔特曼在专访中说道，“用户们显然希望我们不要使用他们的数据进行训练，所以我们已经改变了我们的计划，未来我们也不会这样做了。”网络记录也显示，今年3月1日，OpenAI悄然更新了其服务条款：“不会使用通过其API提交的任何数据来‘服务改进’，包括AI模型训练，除非客户或组织选择加入。”此外，该公司同时添加了30天的数据保留政策，API用户可以选择“根据用户需求”进行更严格的保留，并简化其条款和数据所有权，以明确用户拥有模型的输入和输出。鉴于新的隐私规则仅适用于API用户，这也意味着，普通用户和ChatGPT之间的对话内容，只要用户切换“关闭聊天记录”按钮，仍会进入到模型的训练资料库。长期以来，开发人员一直对OpenAI先前的数据处理政策颇有异议，声称这会带来隐私风险并允许公司从他们的数据中获利。目前，亚马逊等公司已经颁布了禁止员工分享敏感数据的措施，以防范ChatGPT这样的大语言模型窃取公司机密。另有消息称，三星电子本周也推出了一项新政策，要求员工不得在工作场所使用ChatGPT等生成式人工智能。此前，该公司的半导体业务部门曝出了三起机密资料外泄案件，其中两起与半导体设备有关的文件可能已经录入到ChatGPT的学习资料库中。本周早些时候，美国作家协会（WGA）与电影公司之间为期六周的合同谈判破裂，好莱坞面临15年来首次编剧罢工。而究其原因，是美国作家协会要求限制人工智能编写电影和电视剧剧本。美国作家协会谈判委员会成员JohnAugust表示，编剧对人工智能主要有两个不满：他们不想让自己的作品成为“喂饱”AI的材料，也不想以后只能修改AI草率的初稿。...PC版：https://www.cnbeta.com.tw/articles/soft/1358383.htm手机版：https://m.cnbeta.com.tw/view/1358383.htm

美国逾万名影视编剧罢工，导致多个知名电视节目停播。

美国逾万名影视编剧罢工，导致多个知名电视节目停播。罢工于5月2日开始，超过1.1万名编剧罢工，导致美国影视行业陷入混乱，包括知名主持人吉米·法伦和吉米·坎默尔的招牌脱口秀在内，多个备受欢迎的节目停播。这是自2007年以来最大规模的一次同类型罢工行动，起因是编剧所属的工会美国作家协会未能与他们的雇主达成加薪协议。编剧寻求借此获得更高薪酬和工作保障。据《洛杉矶时报》报道，美国作家协会正在为编剧寻求总额达6亿美元的加薪，这一金额还包含了一些其它要求。（）

多名美国作家起诉人工智能公司 OpenAI

多名美国作家起诉人工智能公司OpenAI据路透社报道，当地时间12月20日，包括泰勒・布兰奇和史戴西・希夫在内的11名美国作家在纽约曼哈顿联邦法院起诉美国人工智能公司“开放人工智能研究中心”（OpenAI）和微软，指控其滥用他们的作品来训练聊天机器人ChatGPT。这些作家向法庭表示，OpenAI在未经许可的情况下，从互联网上批量复制了他们的作品，并将这些作品纳入ChatGPT的训练数据里，侵犯了他们的作品版权。他们还表示，由于微软公司“深度参与”了训练和开发人工智能模型，也应承担侵权责任。作家们向法院提出了金额不详的赔偿要求，并要求法院下令这些公司停止侵犯版权。（央视新闻）

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周，作者和对OpenAI提起集体诉讼，指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称，ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品，但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library，这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约63,000个标题，后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人