作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周，作者和对OpenAI提起集体诉讼，指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称，ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品，但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library，这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约63,000个标题，后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

在Telegram中查看

相关推荐

两位作家起诉OpenAI 称ChatGPT侵犯版权

两位作家起诉OpenAI称ChatGPT侵犯版权特伦布莱的作品有《世界尽头的小屋》，阿瓦德的代表作为《看待胖女孩的13种方式》和《兔子》。这两位作家称，ChatGPT写出的书籍简要，和他们发表的文章一模一样，这说明训练ChatGPT的数据库，是包含了他们的作品的。聊天机器人是在大量的文本数据上进行训练的，OpenAI没有透露训练ChatGPT具体使用了哪些数据，但该公司表示，它通常会抓取网络数据，包括使用档案图书和维基百科等。书籍是训练人工智能的理想选择，因为它们往往包含“高质量、精心编辑的长篇文章”，储存了人类思想的精华。根据起诉书显示，OpenAI的训练数据超过30万本书，其中包括本就备受争议、版权归属不明晰的“影子图书馆”。但要证明ChatGPT是如何以及在哪里收集到这些信息的，以及这些作者是否遭受了经济损失，可能是一个挑战。因为ChatGPT也利用了大量的互联网信息进行训练，包括互联网用户对这些书的讨论。该诉讼代表美国全国范围内的版权所有者，寻求一笔数额不详的赔偿金。目前，OpenAI的代表没有对此事进行回应。萨塞克斯大学知识产权法专业的ndresGuadamuz表示，这是针对ChatGPT的第一起涉及版权的诉讼。他补充说，这起诉讼将探讨生成式人工智能领域“合法性边界”的问题。而就在几天之前，OpenAI在加利福尼亚州同样被多方提起集体诉讼，起诉书称OpenAI在未经允许的前提下，在互联网上窃取和挪用了大量私人数据来训练ChatGPT。...PC版：https://www.cnbeta.com.tw/articles/soft/1369241.htm手机版：https://m.cnbeta.com.tw/view/1369241.htm

OpenAI在美被作家起诉侵权以训练聊天机械人

OpenAI在美被作家起诉侵权以训练聊天机械人两名作家向美国三藩市联邦法院提出诉讼，指控人工智能开发公司OpenAI，不正当使用作品，用以训练俗称聊天机械人的运算程式。两名作家分别是崔布雷及阿瓦德，指称OpenAI的ChatGPT在未经许可下，从大量图书中复制提取数据，侵犯作者版权。人工智能近期卷入多宗法律诉讼，大多涉及所利用的数据，协助训练运算程式，当中亦有视觉艺术家提出诉讼。2023-06-3008:39:59

ChatGPT看得越多赔得越多？受版权保护的作家们纷纷起诉OpenAI

ChatGPT看得越多赔得越多？受版权保护的作家们纷纷起诉OpenAI6月底，两名获奖作家MonaAwad和PaulTremblay起诉了OpenAI，指控其在未经同意的情况下，使用其出版书籍来训练ChatGPT，从而违反了版权法。他们认为，由于ChatGPT可以生成其作品的详细摘要，这代表着ChatGPT已经将他们的书籍纳入其数据集之中。范德比尔特大学的法学教授DanielGervais表示，作家们的诉讼是美国针对生成式人工智能的少数版权案件之一，但绝不是最后一次。据最新报道，美国喜剧演员SarahSilverman联合另两名作家ChristopherGolden和RichardKadrey也起诉了OpenAI。他们也认为自己出版的书籍被ChatGPT滥用，利用他们的版权来获得丰厚的商业利润。这些作家都要求法院审判并向OpenAI要求法定损害赔偿和其他损害赔偿。大量法律挑战Gervais表示，更多的作家将起诉开发大型语言模型和生成式人工智能的公司，全美范围内针对ChatGPT的大量法律挑战即将到来。不过，据Gervais称，要证明作家因OpenAI的数据收集行为而遭受金钱损失一事，可能有点困难。此外，法庭文件显示，许多书籍可能来自于盗版网站，但也存在作者声称的书籍录入数据库的情况。苏塞克斯大学人工智能和版权专家AndresGuadamuz也表达了这种担忧，他表示，即使书籍在ChatGPT的训练集之中，但书籍可能是通过OpenAI合法收集的另一个数据集进入的最终训练。而如果书籍信息是ChatGPT从公开网络渠道获得的，那么这一行为的性质可能不同。负责这两起诉讼的律师事务所JosephSaveri称，其在去年11月，因版权问题起诉了微软旗下的GitHubCoplit；今年1月又起诉了AI图像生成器StableDiffusion；现在，其接受五名作家的委托起诉OpenAI。而除了OpenAI之外，该律所还在网站上称，将代表Silverman、Golden和Kadrey同时起诉Meta，因其人工智能模型LLaMA也使用了受版权保护的书籍来进行训练。...PC版：https://www.cnbeta.com.tw/articles/soft/1369937.htm手机版：https://m.cnbeta.com.tw/view/1369937.htm

OpenAI 因使用新闻媒体的文章训练 ChatGPT 而被指责

OpenAI因使用新闻媒体的文章训练ChatGPT而被指责主要新闻媒体已经开始批评OpenAI及其ChatGPT软件，称该实验室正在使用他们的文章来训练其人工智能工具而没有支付费用。新闻集团道琼斯部门的总法律顾问贾森·康蒂在提供给彭博新闻社在一份声明中说：“任何想要使用《华尔街日报》记者的作品来训练人工智能的人都应该从道琼斯那里获得适当的授权。道琼斯与OpenAI没有这样的交易。”孔蒂补充说：“我们严肃对待滥用我们记者工作的行为，并正在审查这种情况。”当计算记者FrancescoMarconi本周发布一条推文说他们的工作被用来训练ChatGPT时，这些新闻集团的担忧就产生了。马可尼说，他要求聊天机器人提供一份它所训练的新闻来源清单，并收到了一份列有20家机构的回复。——

多位作家指控ChatGPT侵犯版权 OpenAI：你们误解了版权的范围

多位作家指控ChatGPT侵犯版权OpenAI：你们误解了版权的范围参与诉讼的作家包括莎拉·西尔弗曼（SarahSilverman）、保罗·特伦布莱（PaulTremblay）、莫娜·阿瓦德（MonaAwad）、克里斯·戈登（ChrisGolden）和理查德·卡德雷（Richardkadrey）。OpenAI认为，原告的其他指控，包括间接侵犯版权、违反《数字千年版权法》(DMCA)、不正当竞争、疏忽和不当得利等，应从诉讼中剔除。OpenAI声称原告误解了版权的范围，未考虑到限制和例外情况，而这些限制和例外适当地为人工智能领域的创新留出了空间，比如现在处于人工智能前沿的大语言模型。OpenAI表示，即使原告的书籍只是ChatGPT庞大数据集的一小部分，创新者以变革方式使用受版权保护的材料并不侵犯版权，与那些试图通过分发受版权保护的材料直接获利的剽窃者不同。OpenAI辩称，它的目标是“教会其大模型推导出人类语言背后的规则”，以此来帮助人们“节省工作时间”、“让日常生活变得更轻松”，或者通过在ChatGPT中输入提示来自娱自乐。OpenAI认为，版权法的目的是促进科学和实用艺术的进步，保护作者表达思想的方式，而不是保护思想本身、作者所表达的信息中的事实，或其他创造性的组成部分。OpenAI引用了一起涉及谷歌图书的著名版权案件，提醒法院，统计信息如词频、句法模式和主题标记超出了版权保护的范畴。OpenAI写道：“根据由此产生的司法先例，在创作一种新的、不侵权的作品之前，‘批量复制某件作品’并不构成侵权，即使新作品与原作品存在竞争关系。”OpenAI特别希望让法院相信，原告的间接侵犯版权指控属于“错误的法律结论”。原告们认为，ChatGPT的每个输出都是衍生作品，“无论输出与培训作品之间是否有任何相似之处”。OpenAI在驳回动议中举例说明为何ChatGPT的每一个输出都不应视为衍生作品。该公司辩称，与作者作品相关的ChatGPT输出类似于图书报告或书评。OpenAI还反驳称，原告未能证明OpenAI在涉嫌侵犯其作品版权方面获得了直接经济利益。OpenAI声称原告指控自相矛盾OpenAI还试图驳回ChatGPT的训练模型违反《数字千年版权法》（DMCA）的指控。根据作者的说法，任何复制他们作品但不包括版权管理信息(CMI)(如作者姓名或出版年份)的ChatGPT输出，都违反了版权法。原告指控OpenAI故意删除了作品中的版权管理信息。对此，OpenAI反驳称，作者的投诉属于“陈词滥调”，并且“完全没有给出任何合理解释”，比如“OpenAI如何在其训练数据中删除作者姓名和出版年份”，“OpenAI为什么会这样做”，或者“原告相信这种情况发生的基础是什么”。OpenAI表示，没有证据表明公司故意删除了版权管理信息，原告的指控中存在许多自相矛盾的事实，包括原告的书籍被OpenAI完整复制的指控。OpenAI指出，如果从训练数据中删除版权管理信息，可能是技术过程的意外副产物，类似于搜索引擎从互联网上获取图像时未获取相关版权管理信息的情况。OpenAI认为，这种偶然删除版权管理信息的做法不应承担责任，并不能支持OpenAI掩盖不法行为或隐瞒侵权行为的指控。最后，OpenAI认为，原告依据DMCA提出的指控应该被驳回。即使假设ChatGPT的每个输出都是衍生作品，DMCA也不禁止在没有原始作品附带版权管理信息的情况下发布衍生作品。相反，DMCA只禁止在分发原始作品或其副本时删除版权管理信息。OpenAI还表示，原告对OpenAI提出的不正当竞争、疏忽和不当得利等指控也应被驳回，因为这些指控都被联邦版权法所覆盖。如果OpenAI成功推翻了大部分原告的指控，法院只需决定OpenAI的训练模型是否直接侵犯了版权法。这可能意味着，ChatGPT的训练数据违反了法律，要么涉及复制和分发原始作品，要么在未经授权或未进行充分修改的情况下发布了衍生作品。然而，原告们不太可能轻易放弃这场斗争。约瑟夫·萨维里律师事务所（JosephSaveriLawFirm）在总结他们指控的网站上写道，对他们来说，生成式人工智能是一个巨大的骗局，无助于人类智能的进一步发展，而是代表了人类智能的副本，已经被重新打包并与其创造者分离。...PC版：https://www.cnbeta.com.tw/articles/soft/1380719.htm手机版：https://m.cnbeta.com.tw/view/1380719.htm

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁据外媒TheVerge报道，中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型，并在名为“豆包”的聊天机器人提供相关服务。外媒报道称，字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称，在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称，GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称，国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人