“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型

“ChatGPT之父”：OpenAI早已不使用客户数据来训练模型OpenAI是近期爆火的AI聊天机器人ChatGPT的开发商，而阿尔特曼提到的“大语言模型”就是ChatGPT背后的关键技术。据了解，开发商在训练大语言模型时需要摄取网络上的海量数据，才能提高模型生成自然语言的能力。阿尔特曼在专访中说道，“用户们显然希望我们不要使用他们的数据进行训练，所以我们已经改变了我们的计划，未来我们也不会这样做了。”网络记录也显示，今年3月1日，OpenAI悄然更新了其服务条款：“不会使用通过其API提交的任何数据来‘服务改进’，包括AI模型训练，除非客户或组织选择加入。”此外，该公司同时添加了30天的数据保留政策，API用户可以选择“根据用户需求”进行更严格的保留，并简化其条款和数据所有权，以明确用户拥有模型的输入和输出。鉴于新的隐私规则仅适用于API用户，这也意味着，普通用户和ChatGPT之间的对话内容，只要用户切换“关闭聊天记录”按钮，仍会进入到模型的训练资料库。长期以来，开发人员一直对OpenAI先前的数据处理政策颇有异议，声称这会带来隐私风险并允许公司从他们的数据中获利。目前，亚马逊等公司已经颁布了禁止员工分享敏感数据的措施，以防范ChatGPT这样的大语言模型窃取公司机密。另有消息称，三星电子本周也推出了一项新政策，要求员工不得在工作场所使用ChatGPT等生成式人工智能。此前，该公司的半导体业务部门曝出了三起机密资料外泄案件，其中两起与半导体设备有关的文件可能已经录入到ChatGPT的学习资料库中。本周早些时候，美国作家协会（WGA）与电影公司之间为期六周的合同谈判破裂，好莱坞面临15年来首次编剧罢工。而究其原因，是美国作家协会要求限制人工智能编写电影和电视剧剧本。美国作家协会谈判委员会成员JohnAugust表示，编剧对人工智能主要有两个不满：他们不想让自己的作品成为“喂饱”AI的材料，也不想以后只能修改AI草率的初稿。...PC版：https://www.cnbeta.com.tw/articles/soft/1358383.htm手机版：https://m.cnbeta.com.tw/view/1358383.htm

在Telegram中查看

相关推荐

【OpenAICEO：公司已不用API付费客户数据训练大语言模型】

【OpenAICEO：公司已不用API付费客户数据训练大语言模型】5月6日消息，ChatGPT开发公司OpenAI首席执行官SamAltman表示，公司已经“有一段时间”没有使用付费客户的数据来训练人工智能大语言模型了；“用户们显然希望我们不要使用他们的数据进行训练，所以我们已经改变了我们的计划，未来我们也不会这样做了。”网络记录也显示，今年3月1日，OpenAI悄然更新了其服务条款：“不会使用通过其API提交的任何数据来“服务改进”，包括AI模型训练，除非客户或组织选择加入。”但OpenAI的新隐私和数据保护仅适用于使用该公司API服务的客户。

OpenAI突然“销毁”了10万多本书，到底发生了什么？

OpenAI突然“销毁”了10万多本书，到底发生了什么？这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示，这些数据集很可能包含“10万多本已出版书籍”，是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。几个月来，美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示，OpenAI最初以保密为由拒绝提供这些数据集的下落，但最终披露已删除所有数据副本。高质量的训练数据是强大AI模型的重要组成部分。目前，这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型，其中包括许多书籍。许多创造这些数据的公司认为，他们为新的AI产品提供了训练数据，需要获得报酬。但是，科技公司不想被迫付费。这一争执已经引发了多起官司。500亿个单词OpenAI曾在2020年发布过一份白皮书，将图书1和图书2数据集描述为“基于互联网的图书语料库”，并表示它们占据创建GPT-3训练数据的16%。白皮书还表示，图书1和图书2总共包含670亿个数据词元(token)，大致相当于500亿个单词。作为比较，《钦定圣经》有783,137个单词。最新解封的法庭文件是OpenAI律师的信函，它被标记为“高度机密-仅限律师查看”。信中说，OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用，它们在2022年年中被删除。信中还说，用于训练GPT-3的其他数据都没有被删除，并允许美国作家协会的律师访问其他数据集。该文件还显示，创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份，随后向美国作家协会的律师确认了这些员工的身份，但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对，认为公众有知情权。目前，争议仍在继续。OpenAI周二在一份声明中表示：“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的，最后一次使用是在2021年，并在2022年因未使用而被删除。”...PC版：https://www.cnbeta.com.tw/articles/soft/1430047.htm手机版：https://m.cnbeta.com.tw/view/1430047.htm

OpenAI：如果不使用版权内容，ChatGPT 等 AI 模型不可能开发出来

OpenAI：如果不使用版权内容，ChatGPT等AI模型不可能开发出来ChatGPT开发商OpenAI近日承认，像ChatGPT这样的AI工具的开发离不开受版权保护的素材，并称如果没有这些素材，这些工具根本无法诞生。据《每日电讯报》报道，OpenAI在提交给英国上议院通信和数字事务特别委员会关于大型语言模型调查的文件中做出了这一表述。OpenAI在提交给上议院的文件中写道，“由于当前版权涵盖了几乎所有形式的人类表达方式，包括博客文章、照片、论坛帖子、软件代码片段和政府文件，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。”OpenAI进一步表示，如果将训练数据仅限于“一个世纪前”的公共领域书籍和图画，将无法训练出“满足当代公民需求”的AI系统。“使用公开可获取的互联网素材训练AI模型属于合理使用，这一观点得到了长期以来广泛接受的先例的支持，”OpenAI在其周一发布的博客文章中写道，“我们认为，这一原则对创作者是公平的，对创新者是必要的，对美国的竞争力也至关重要。”投稿：@TNSubmbot频道：@TestFlightCN

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁

字节跳动被曝使用ChatGPT训练自家AI，被OpenAI封禁据外媒TheVerge报道，中国科技公司字节跳动一直在秘密使用OpenAI的AI语言大模型ChatGPT来训练自己开发的大模型，并在名为“豆包”的聊天机器人提供相关服务。外媒报道称，字节员工在飞书上讨论如何通过“数据脱敏”来“粉饰”证据。字节对GPT的使用量之大使其员工经常达到API(程序接口)访问的最大限额。而这种行为并不符合OpenAI的使用政策。OpenAI对报道回应称，在进一步调查期间已暂停了字节跳动的帐户。字节跳动则回应称，GPT生成的数据在今年年中已从字节跳动的训练数据中删除。有中媒引用国内业内人士说法称，国内厂商用国外主流模型的API先试水业务、训练模型的情况并不少见。原文链接《TheVerge》《36氪》

谷歌顶级AI专家加入OpenAI 曾警告不要用ChatGPT数据训练Bard

谷歌顶级AI专家加入OpenAI曾警告不要用ChatGPT数据训练Bard谷歌发言人则表示，“训练Bard没有用过任何来自ShareGPT或ChatGPT的数据。”据悉，用户可以在ShareGPT这个平台上发布他们与聊天机器人ChatGPT所交流的信息。报道称，德弗林曾告诉谷歌高管们，他认为开发Bard的团队使用了来自ShareGPT平台的信息。德弗林警告高管们，用用户与ChatGPT对话进行训练的话，可能会让Bard和ChatGPT太过相似。据报道，德弗林以及谷歌其他员工还认为这种做法违反了OpenAI的服务条款。消息人士表示，在德弗林就这个问题对谷歌高管发出警告后，谷歌就停止使用这些数据来训练Bard。据悉，今年1月份德弗林离开谷歌后不久，就加入了竞争对手OpenAI麾下。此前有报道称，德弗林是今年年初离开谷歌加入竞争对手的几名人工智能顶级研究人员之一。德弗林在谷歌工作了五年多时间。2018年他作为主要作者发布了一篇关于训练机器学习模型以提高搜索精度的研究论文，在一定程度上推动了人工智能的研究热潮。据报道，德弗林的研究成果已经成为谷歌和OpenAI语言模型的组成部分。多年来，OpenAI聘请了几十名来自谷歌母公司Alphabet的员工。去年11月份，OpenAI因公开发布能撰写文章还能自动编程的ChatGPT而爆火，此后谷歌和OpenAI就在人工智能领域展开激烈竞争。本月早些时候，谷歌向部分美国和英国用户发布了Bard。但是谷歌想要赶超OpenAI的步伐并没有停止。有报道称，为了能和OpenAI竞争，隶属于Alphabet旗下的两个人工智能团队DeepMind和谷歌大脑（GoogleBrain）已经联手。（辰辰）...PC版：https://www.cnbeta.com.tw/articles/soft/1352121.htm手机版：https://m.cnbeta.com.tw/view/1352121.htm

版权大战迎来高潮美国作家协会对OpenAI发起集体诉讼

版权大战迎来高潮美国作家协会对OpenAI发起集体诉讼（注：起诉书）美国作家协会声称，OpenAI公司在未经许可或未支付报酬的情况下批量复制他们的作品，并将受版权保护的材料输入大型语言模型。“这些算法是被告企业的核心，而算法的核心则来源于大规模、系统性的窃取。”起诉书称，作家的生计依靠他们创作的作品，但人工智能模型对此造成了伤害，OpenAI的大型语言模型允许任何人总结或改写他们书籍的衍生作品，这可能会损害作家的利益。据悉，美国作家协会代表迈克尔·康纳利、斯科特·图罗、乔纳森·弗兰岑、约翰·格里沙姆、乔迪·皮科特、乔治·马丁等诸多知名作家在纽约南区提起诉讼。据了解，除了OpenAI之外，针对MetaPlatforms和StabilityAI等人工智能企业的诉讼也在处理中。而OpenAI和其他人工智能公司此前表示，根据美国版权法，他们从互联网上收集的训练数据符合“合理使用”的范围，不会构成侵权。美国作家协会的首席执行官玛丽·拉森伯格周三在一份声明中表示，为了保护我们的文学作品，作家必须有能力控制他们的作品是否以及如何被生成式人工智能使用。起诉书中还提到，ChatGPT能够生成作者作品的准确摘要，表明他们的文本内容已包含在其数据库中。该组织还提到了其他方面的担忧，ChatGPT等人工智能工具现在能够快速、廉价地产生大量令人信服的文本，这些工具可能会取代作家。值得注意的是，已经发生了一系列人工智能“伪造”知名作家新书公然售卖的事件。此外，早在7月份，就有1万多名作家签署一封信，要求微软、MetaPlatforms和Alphabet等公司领导者不要在未经许可或未支付报酬的情况下使用这些作家的作品训练人工智能系统。信中提到：“数以百万计受版权保护的书籍、文章、散文和诗歌为人工智能系统提供了‘食物’，这些无穷无尽的‘大餐’却没有任何账单。你们花费数以十亿美元计的资金开发人工智能技术。你们使用我们的作品应该支付补偿，这样才是公平的，没有这些作品，人工智能将是平庸和非常有局限性的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1385335.htm手机版：https://m.cnbeta.com.tw/view/1385335.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人