版权问题如何解决？OpenAI被控非法使用图书数据训练AI系统

版权问题如何解决？OpenAI被控非法使用图书数据训练AI系统训练先进的AI系统需要用到大量数据材料，这种使用方式在法律上面临诸多挑战。比如，源代码所有者将矛头指向OpenAI和微软旗下GitHub，视觉艺术家起诉StabilityAI、Midjourney和DeviantArt等AI工具。被告则认为，系统合理使用了有著作权的作品。当用户向ChatGPT给出提示语时，AI会快速回应，虽然这种回应充满争议。ChatGPT仅仅开放两个月，1月时活跃用户便达到了1亿。ChatGPT及其它生成式AI系统会用海量数据创造内容，很多数据来自互联网。作家PaulTremblay和MonaAwad认为书本是关键数据材料，因为它们是高质量长文写作的典范。诉状估计，OpenAI的训练数据包含了至少30万本图书，当中有许多是没有获得许可、非法获取的有版权图书。两名原告称ChatGPT可以对他们写的书作出非常精准的总结，也就是说他们的书被吸纳进数据库。...PC版：https://www.cnbeta.com.tw/articles/soft/1368183.htm手机版：https://m.cnbeta.com.tw/view/1368183.htm

在Telegram中查看

相关推荐

作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责OpenAI使用盗版网站训练ChatGPT本周，作者和对OpenAI提起集体诉讼，指控ChatGPT的母公司侵犯版权并违反DMCA等。据作者称，ChatGPT未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权OpenAI使用他们的作品，但ChatGPT可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控OpenAI使用盗版网站作为训练输入。这可能包括Z-Library，这是一个拥有数百万册盗版图书的影子图书馆。OpenAI尚未透露ChatGPT训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约63,000个标题，后者包含大约294,000个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致OpenAI不得不披露一些训练数据。——

OpenAI 称不用版权材料是不可能创造出类似 ChatGPT 的 AI 工具

OpenAI称不用版权材料是不可能创造出类似ChatGPT的AI工具OpenAI称不用版权材料是不可能创造出ChatGPT之类的AI工具。ChatGPT等聊天机器人和StableDiffusion等图像生成工具都利用了从互联网上获取的大量数据进行训练，其中大部分数据是受版权保护的。《纽约时报》上个月起诉了OpenAI及其主要投资者微软，称它们“非法使用”其作品创建AI产品。OpenAI在给英国上议院通信数字特别委员会的文件中表示，如果不能获得版权材料，它将无法训练GPT-4等大语言模型。如果将模型训练仅限于公共领域的作品和图像，得到AI系统将无法满足现代公民的需求。OpenAI认为，从法律上说，版权法并不禁止训练。来源，频道：@kejiqu群组：@kejiquchat

两位作家起诉OpenAI 称ChatGPT侵犯版权

两位作家起诉OpenAI称ChatGPT侵犯版权特伦布莱的作品有《世界尽头的小屋》，阿瓦德的代表作为《看待胖女孩的13种方式》和《兔子》。这两位作家称，ChatGPT写出的书籍简要，和他们发表的文章一模一样，这说明训练ChatGPT的数据库，是包含了他们的作品的。聊天机器人是在大量的文本数据上进行训练的，OpenAI没有透露训练ChatGPT具体使用了哪些数据，但该公司表示，它通常会抓取网络数据，包括使用档案图书和维基百科等。书籍是训练人工智能的理想选择，因为它们往往包含“高质量、精心编辑的长篇文章”，储存了人类思想的精华。根据起诉书显示，OpenAI的训练数据超过30万本书，其中包括本就备受争议、版权归属不明晰的“影子图书馆”。但要证明ChatGPT是如何以及在哪里收集到这些信息的，以及这些作者是否遭受了经济损失，可能是一个挑战。因为ChatGPT也利用了大量的互联网信息进行训练，包括互联网用户对这些书的讨论。该诉讼代表美国全国范围内的版权所有者，寻求一笔数额不详的赔偿金。目前，OpenAI的代表没有对此事进行回应。萨塞克斯大学知识产权法专业的ndresGuadamuz表示，这是针对ChatGPT的第一起涉及版权的诉讼。他补充说，这起诉讼将探讨生成式人工智能领域“合法性边界”的问题。而就在几天之前，OpenAI在加利福尼亚州同样被多方提起集体诉讼，起诉书称OpenAI在未经允许的前提下，在互联网上窃取和挪用了大量私人数据来训练ChatGPT。...PC版：https://www.cnbeta.com.tw/articles/soft/1369241.htm手机版：https://m.cnbeta.com.tw/view/1369241.htm

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁据外媒TheVerge报道，中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型，并在名为“豆包”的聊天机器人提供相关服务。外媒报道称，字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称，在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称，GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称，国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

OpenAI：如果不使用版权内容，ChatGPT 等 AI 模型不可能开发出来

OpenAI：如果不使用版权内容，ChatGPT等AI模型不可能开发出来ChatGPT开发商OpenAI近日承认，像ChatGPT这样的AI工具的开发离不开受版权保护的素材，并称如果没有这些素材，这些工具根本无法诞生。据《每日电讯报》报道，OpenAI在提交给英国上议院通信和数字事务特别委员会关于大型语言模型调查的文件中做出了这一表述。OpenAI在提交给上议院的文件中写道，“由于当前版权涵盖了几乎所有形式的人类表达方式，包括博客文章、照片、论坛帖子、软件代码片段和政府文件，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。”OpenAI进一步表示，如果将训练数据仅限于“一个世纪前”的公共领域书籍和图画，将无法训练出“满足当代公民需求”的AI系统。“使用公开可获取的互联网素材训练AI模型属于合理使用，这一观点得到了长期以来广泛接受的先例的支持，”OpenAI在其周一发布的博客文章中写道，“我们认为，这一原则对创作者是公平的，对创新者是必要的，对美国的竞争力也至关重要。”投稿：@TNSubmbot频道：@TestFlightCN

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型OpenAI是近期爆火的AI聊天机器人ChatGPT的开发商，而阿尔特曼提到的“大语言模型”就是ChatGPT背后的关键技术。据了解，开发商在训练大语言模型时需要摄取网络上的海量数据，才能提高模型生成自然语言的能力。阿尔特曼在专访中说道，“用户们显然希望我们不要使用他们的数据进行训练，所以我们已经改变了我们的计划，未来我们也不会这样做了。”网络记录也显示，今年3月1日，OpenAI悄然更新了其服务条款：“不会使用通过其API提交的任何数据来‘服务改进’，包括AI模型训练，除非客户或组织选择加入。”此外，该公司同时添加了30天的数据保留政策，API用户可以选择“根据用户需求”进行更严格的保留，并简化其条款和数据所有权，以明确用户拥有模型的输入和输出。鉴于新的隐私规则仅适用于API用户，这也意味着，普通用户和ChatGPT之间的对话内容，只要用户切换“关闭聊天记录”按钮，仍会进入到模型的训练资料库。长期以来，开发人员一直对OpenAI先前的数据处理政策颇有异议，声称这会带来隐私风险并允许公司从他们的数据中获利。目前，亚马逊等公司已经颁布了禁止员工分享敏感数据的措施，以防范ChatGPT这样的大语言模型窃取公司机密。另有消息称，三星电子本周也推出了一项新政策，要求员工不得在工作场所使用ChatGPT等生成式人工智能。此前，该公司的半导体业务部门曝出了三起机密资料外泄案件，其中两起与半导体设备有关的文件可能已经录入到ChatGPT的学习资料库中。本周早些时候，美国作家协会（WGA）与电影公司之间为期六周的合同谈判破裂，好莱坞面临15年来首次编剧罢工。而究其原因，是美国作家协会要求限制人工智能编写电影和电视剧剧本。美国作家协会谈判委员会成员JohnAugust表示，编剧对人工智能主要有两个不满：他们不想让自己的作品成为“喂饱”AI的材料，也不想以后只能修改AI草率的初稿。...PC版：https://www.cnbeta.com.tw/articles/soft/1358383.htm手机版：https://m.cnbeta.com.tw/view/1358383.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人