OpenAI：如果不使用版权内容，ChatGPT 等 AI 模型不可能开发出来

OpenAI：如果不使用版权内容，ChatGPT等AI模型不可能开发出来ChatGPT开发商OpenAI近日承认，像ChatGPT这样的AI工具的开发离不开受版权保护的素材，并称如果没有这些素材，这些工具根本无法诞生。据《每日电讯报》报道，OpenAI在提交给英国上议院通信和数字事务特别委员会关于大型语言模型调查的文件中做出了这一表述。OpenAI在提交给上议院的文件中写道，“由于当前版权涵盖了几乎所有形式的人类表达方式，包括博客文章、照片、论坛帖子、软件代码片段和政府文件，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。”OpenAI进一步表示，如果将训练数据仅限于“一个世纪前”的公共领域书籍和图画，将无法训练出“满足当代公民需求”的AI系统。“使用公开可获取的互联网素材训练AI模型属于合理使用，这一观点得到了长期以来广泛接受的先例的支持，”OpenAI在其周一发布的博客文章中写道，“我们认为，这一原则对创作者是公平的，对创新者是必要的，对美国的竞争力也至关重要。”投稿：@TNSubmbot频道：@TestFlightCN

在Telegram中查看

相关推荐

OpenAI 称不用版权材料是不可能创造出类似 ChatGPT 的 AI 工具

OpenAI称不用版权材料是不可能创造出类似ChatGPT的AI工具OpenAI称不用版权材料是不可能创造出ChatGPT之类的AI工具。ChatGPT等聊天机器人和StableDiffusion等图像生成工具都利用了从互联网上获取的大量数据进行训练，其中大部分数据是受版权保护的。《纽约时报》上个月起诉了OpenAI及其主要投资者微软，称它们“非法使用”其作品创建AI产品。OpenAI在给英国上议院通信数字特别委员会的文件中表示，如果不能获得版权材料，它将无法训练GPT-4等大语言模型。如果将模型训练仅限于公共领域的作品和图像，得到AI系统将无法满足现代公民的需求。OpenAI认为，从法律上说，版权法并不禁止训练。来源，频道：@kejiqu群组：@kejiquchat

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型OpenAI是近期爆火的AI聊天机器人ChatGPT的开发商，而阿尔特曼提到的“大语言模型”就是ChatGPT背后的关键技术。据了解，开发商在训练大语言模型时需要摄取网络上的海量数据，才能提高模型生成自然语言的能力。阿尔特曼在专访中说道，“用户们显然希望我们不要使用他们的数据进行训练，所以我们已经改变了我们的计划，未来我们也不会这样做了。”网络记录也显示，今年3月1日，OpenAI悄然更新了其服务条款：“不会使用通过其API提交的任何数据来‘服务改进’，包括AI模型训练，除非客户或组织选择加入。”此外，该公司同时添加了30天的数据保留政策，API用户可以选择“根据用户需求”进行更严格的保留，并简化其条款和数据所有权，以明确用户拥有模型的输入和输出。鉴于新的隐私规则仅适用于API用户，这也意味着，普通用户和ChatGPT之间的对话内容，只要用户切换“关闭聊天记录”按钮，仍会进入到模型的训练资料库。长期以来，开发人员一直对OpenAI先前的数据处理政策颇有异议，声称这会带来隐私风险并允许公司从他们的数据中获利。目前，亚马逊等公司已经颁布了禁止员工分享敏感数据的措施，以防范ChatGPT这样的大语言模型窃取公司机密。另有消息称，三星电子本周也推出了一项新政策，要求员工不得在工作场所使用ChatGPT等生成式人工智能。此前，该公司的半导体业务部门曝出了三起机密资料外泄案件，其中两起与半导体设备有关的文件可能已经录入到ChatGPT的学习资料库中。本周早些时候，美国作家协会（WGA）与电影公司之间为期六周的合同谈判破裂，好莱坞面临15年来首次编剧罢工。而究其原因，是美国作家协会要求限制人工智能编写电影和电视剧剧本。美国作家协会谈判委员会成员JohnAugust表示，编剧对人工智能主要有两个不满：他们不想让自己的作品成为“喂饱”AI的材料，也不想以后只能修改AI草率的初稿。...PC版：https://www.cnbeta.com.tw/articles/soft/1358383.htm手机版：https://m.cnbeta.com.tw/view/1358383.htm

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练ChatGPT等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI华尔街日报报道，AI技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练AI模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在ChatGPT、Bard等AI工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到AI公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI工具可能会影响他们网站的流量和广告收入。事实上，AI版权问题并非始于ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到AI模型训练使用受版权保护的数据。例如，Midjourney、StabilityAI、微软、GitHub以及OpenAI都曾卷入相关纠纷。目前，对于AI创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式AI的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁据外媒TheVerge报道，中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型，并在名为“豆包”的聊天机器人提供相关服务。外媒报道称，字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称，在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称，GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称，国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

SarahSilverman起诉Meta和OpenAI侵犯版权喜剧演员SarahSilverman以及两名作家RichardKadrey和ChristopherGolden向旧金山联邦法院提起集体诉讼，指控Meta和OpenAI使用受版权保护的材料训练AI聊天机器人。诉讼凸显了生成式AI工具所面临的法律风险。Silverman、Kadrey和Golden指控Meta和OpenAI未经授权使用其书籍开发大语言模型。在针对Meta的诉讼中，原告称泄露的该公司AI业务信息显示他们的作品未经许可被使用。针对OpenAI的诉讼称，ChatGPT生成的原告作品摘要表明它接受了受版权保护内容的训练。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

多位作家指控ChatGPT侵犯版权 OpenAI：你们误解了版权的范围

多位作家指控ChatGPT侵犯版权OpenAI：你们误解了版权的范围参与诉讼的作家包括莎拉·西尔弗曼（SarahSilverman）、保罗·特伦布莱（PaulTremblay）、莫娜·阿瓦德（MonaAwad）、克里斯·戈登（ChrisGolden）和理查德·卡德雷（Richardkadrey）。OpenAI认为，原告的其他指控，包括间接侵犯版权、违反《数字千年版权法》(DMCA)、不正当竞争、疏忽和不当得利等，应从诉讼中剔除。OpenAI声称原告误解了版权的范围，未考虑到限制和例外情况，而这些限制和例外适当地为人工智能领域的创新留出了空间，比如现在处于人工智能前沿的大语言模型。OpenAI表示，即使原告的书籍只是ChatGPT庞大数据集的一小部分，创新者以变革方式使用受版权保护的材料并不侵犯版权，与那些试图通过分发受版权保护的材料直接获利的剽窃者不同。OpenAI辩称，它的目标是“教会其大模型推导出人类语言背后的规则”，以此来帮助人们“节省工作时间”、“让日常生活变得更轻松”，或者通过在ChatGPT中输入提示来自娱自乐。OpenAI认为，版权法的目的是促进科学和实用艺术的进步，保护作者表达思想的方式，而不是保护思想本身、作者所表达的信息中的事实，或其他创造性的组成部分。OpenAI引用了一起涉及谷歌图书的著名版权案件，提醒法院，统计信息如词频、句法模式和主题标记超出了版权保护的范畴。OpenAI写道：“根据由此产生的司法先例，在创作一种新的、不侵权的作品之前，‘批量复制某件作品’并不构成侵权，即使新作品与原作品存在竞争关系。”OpenAI特别希望让法院相信，原告的间接侵犯版权指控属于“错误的法律结论”。原告们认为，ChatGPT的每个输出都是衍生作品，“无论输出与培训作品之间是否有任何相似之处”。OpenAI在驳回动议中举例说明为何ChatGPT的每一个输出都不应视为衍生作品。该公司辩称，与作者作品相关的ChatGPT输出类似于图书报告或书评。OpenAI还反驳称，原告未能证明OpenAI在涉嫌侵犯其作品版权方面获得了直接经济利益。OpenAI声称原告指控自相矛盾OpenAI还试图驳回ChatGPT的训练模型违反《数字千年版权法》（DMCA）的指控。根据作者的说法，任何复制他们作品但不包括版权管理信息(CMI)(如作者姓名或出版年份)的ChatGPT输出，都违反了版权法。原告指控OpenAI故意删除了作品中的版权管理信息。对此，OpenAI反驳称，作者的投诉属于“陈词滥调”，并且“完全没有给出任何合理解释”，比如“OpenAI如何在其训练数据中删除作者姓名和出版年份”，“OpenAI为什么会这样做”，或者“原告相信这种情况发生的基础是什么”。OpenAI表示，没有证据表明公司故意删除了版权管理信息，原告的指控中存在许多自相矛盾的事实，包括原告的书籍被OpenAI完整复制的指控。OpenAI指出，如果从训练数据中删除版权管理信息，可能是技术过程的意外副产物，类似于搜索引擎从互联网上获取图像时未获取相关版权管理信息的情况。OpenAI认为，这种偶然删除版权管理信息的做法不应承担责任，并不能支持OpenAI掩盖不法行为或隐瞒侵权行为的指控。最后，OpenAI认为，原告依据DMCA提出的指控应该被驳回。即使假设ChatGPT的每个输出都是衍生作品，DMCA也不禁止在没有原始作品附带版权管理信息的情况下发布衍生作品。相反，DMCA只禁止在分发原始作品或其副本时删除版权管理信息。OpenAI还表示，原告对OpenAI提出的不正当竞争、疏忽和不当得利等指控也应被驳回，因为这些指控都被联邦版权法所覆盖。如果OpenAI成功推翻了大部分原告的指控，法院只需决定OpenAI的训练模型是否直接侵犯了版权法。这可能意味着，ChatGPT的训练数据违反了法律，要么涉及复制和分发原始作品，要么在未经授权或未进行充分修改的情况下发布了衍生作品。然而，原告们不太可能轻易放弃这场斗争。约瑟夫·萨维里律师事务所（JosephSaveriLawFirm）在总结他们指控的网站上写道，对他们来说，生成式人工智能是一个巨大的骗局，无助于人类智能的进一步发展，而是代表了人类智能的副本，已经被重新打包并与其创造者分离。...PC版：https://www.cnbeta.com.tw/articles/soft/1380719.htm手机版：https://m.cnbeta.com.tw/view/1380719.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人