研究人员测试了热门的大语言模型的版权侵权情况

研究人员测试了热门的大语言模型的版权侵权情况新创AI模型评估公司PatronusAI周三发布了一个API，用于检测大语言模型版权内容的CopyrightCatcher（版权捕手）。同时该公司还展示了热门的AI模型生成受版权保护内容的频率。Patronus仅使用美国受版权保护的书籍来测试模型，并从编目网站Goodreads中选择流行的书籍。研究人员设计了100种不同的提示语，让模型以续写或输出第一页的方式回应。OpenAI的GPT-4表现最差，在44%的提示上生成了受版权保护的内容，Mixtral为22%。Anthropic的Claude2为8%，Meta的Llama-2为10%。总体来说所有模型，无论开源闭源都生成了受版权保护的内容，暗示了其训练数据中可能也使用了这些数据。OpenAI曾在今年早些时候表示，如果没有受版权保护的作品，“不可能”训练顶级人工智能模型。——、

在Telegram中查看

相关推荐

研究人员测试了热门的大语言模型的版权侵权情况https://www.bannedbook.org/bnews/itnews/20

研究人员发现AI模型可生成真人照片和受版权保护的图片

研究人员发现AI模型可生成真人照片和受版权保护的图片研究人员从模型中收集了一千多个训练实例，范围从个人照片到电影剧照、受版权保护的新闻图片和有商标的公司标志，并发现人工智能几乎以相同的方式复制了其中的许多内容。来自普林斯顿大学和伯克利大学等高校的研究人员，以及来自科技部门--特别是Google和DeepMind--的研究人员进行了这项研究。研究团队在之前的研究中指出了人工智能语言模型的类似问题，特别是GPT2，即OpenAI大获成功的ChatGPT的前身。在Google大脑研究员尼古拉斯-卡里尼的指导下，团队通过向Google的Imagen和StableDiffusion提供图片的标题，例如一个人的名字后生成了结果。之后，他们验证了生成的图像是否与模型数据库中保存的原件相符。来自稳定扩散的数据集，即被称为LAION的多TB采集图片集，被用来生成下面的图片。它使用了数据集中指定的标题。当研究人员在提示框中输入标题时会产生了相同的图像，尽管因数字噪音而略有扭曲。接下来，研究小组在反复执行相同的提示后，手动验证了该图像是否是训练集的一部分。研究人员指出，非记忆性的回应仍然可以忠实地表现出模型所提示的文字，但不会有相同的像素构成，并且会与其它训练生成的图像不同。苏黎世联邦理工学院计算机科学教授和研究参与者FlorianTramèr观察到了研究结果的重大局限性。研究人员能够提取的照片要么在训练数据中频繁出现，要么在数据集中的其他照片中明显突出。根据弗洛里安-特拉梅尔的说法，那些不常见的名字或外表的人更有可能被"记住"。研究人员表示，扩散式人工智能模型是最不隐私的一种图像生成模型。与生成对抗网络（GANs），一类较早的图片模型相比，它们泄露的训练数据是前者的两倍多。这项研究的目的是提醒开发者注意与扩散模型相关的隐私风险，其中包括各种担忧，如滥用和复制受版权保护的敏感私人数据（包括医疗图像）的可能性，以及在训练数据容易被提取的情况下易受外部攻击。研究人员建议的修复方法是识别训练集中重复生成的照片，并从数据收集中删除它们。...PC版：https://www.cnbeta.com.tw/articles/soft/1342757.htm手机版：https://m.cnbeta.com.tw/view/1342757.htm

报告称 ChatGPT 充斥大量版权内容

报告称ChatGPT充斥大量版权内容根据PatronusAI近日发表的最新报告，OpenAI的GPT-4模型中包含大量的版权内容，其占比达到了44%。PatronusAI是一家专门评估大型语言模型（LLMs）的公司，本周三发布的报告中测试了四款主流AI模型：OpenAI的GPT-4、Anthropic的Claude2、Meta的Llama2以及MistralAI的Mixtral，意外的是没有谷歌的Gemini。OpenAI的GPT-4生成的带有版权文字的提示数量最多（44%）。Claude2是最谨慎的，仅在16%的完成提示中生成了受版权保护的内容。它还以无法获得版权材料为由，拒绝回答所有第一段提示。Llama2在10%的提示中提供了受版权保护的内容。Mixtral提供了6%的版权内容，更倾向于完成首段（38%）。

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

SarahSilverman起诉Meta和OpenAI侵犯版权喜剧演员SarahSilverman以及两名作家RichardKadrey和ChristopherGolden向旧金山联邦法院提起集体诉讼，指控Meta和OpenAI使用受版权保护的材料训练AI聊天机器人。诉讼凸显了生成式AI工具所面临的法律风险。Silverman、Kadrey和Golden指控Meta和OpenAI未经授权使用其书籍开发大语言模型。在针对Meta的诉讼中，原告称泄露的该公司AI业务信息显示他们的作品未经许可被使用。针对OpenAI的诉讼称，ChatGPT生成的原告作品摘要表明它接受了受版权保护内容的训练。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI：如果不使用版权内容，ChatGPT 等 AI 模型不可能开发出来

OpenAI：如果不使用版权内容，ChatGPT等AI模型不可能开发出来ChatGPT开发商OpenAI近日承认，像ChatGPT这样的AI工具的开发离不开受版权保护的素材，并称如果没有这些素材，这些工具根本无法诞生。据《每日电讯报》报道，OpenAI在提交给英国上议院通信和数字事务特别委员会关于大型语言模型调查的文件中做出了这一表述。OpenAI在提交给上议院的文件中写道，“由于当前版权涵盖了几乎所有形式的人类表达方式，包括博客文章、照片、论坛帖子、软件代码片段和政府文件，如果不使用受版权保护的内容，就不可能训练当今领先的人工智能模型。”OpenAI进一步表示，如果将训练数据仅限于“一个世纪前”的公共领域书籍和图画，将无法训练出“满足当代公民需求”的AI系统。“使用公开可获取的互联网素材训练AI模型属于合理使用，这一观点得到了长期以来广泛接受的先例的支持，”OpenAI在其周一发布的博客文章中写道，“我们认为，这一原则对创作者是公平的，对创新者是必要的，对美国的竞争力也至关重要。”投稿：@TNSubmbot频道：@TestFlightCN

ChatGPT看得越多赔得越多？受版权保护的作家们纷纷起诉OpenAI

ChatGPT看得越多赔得越多？受版权保护的作家们纷纷起诉OpenAI6月底，两名获奖作家MonaAwad和PaulTremblay起诉了OpenAI，指控其在未经同意的情况下，使用其出版书籍来训练ChatGPT，从而违反了版权法。他们认为，由于ChatGPT可以生成其作品的详细摘要，这代表着ChatGPT已经将他们的书籍纳入其数据集之中。范德比尔特大学的法学教授DanielGervais表示，作家们的诉讼是美国针对生成式人工智能的少数版权案件之一，但绝不是最后一次。据最新报道，美国喜剧演员SarahSilverman联合另两名作家ChristopherGolden和RichardKadrey也起诉了OpenAI。他们也认为自己出版的书籍被ChatGPT滥用，利用他们的版权来获得丰厚的商业利润。这些作家都要求法院审判并向OpenAI要求法定损害赔偿和其他损害赔偿。大量法律挑战Gervais表示，更多的作家将起诉开发大型语言模型和生成式人工智能的公司，全美范围内针对ChatGPT的大量法律挑战即将到来。不过，据Gervais称，要证明作家因OpenAI的数据收集行为而遭受金钱损失一事，可能有点困难。此外，法庭文件显示，许多书籍可能来自于盗版网站，但也存在作者声称的书籍录入数据库的情况。苏塞克斯大学人工智能和版权专家AndresGuadamuz也表达了这种担忧，他表示，即使书籍在ChatGPT的训练集之中，但书籍可能是通过OpenAI合法收集的另一个数据集进入的最终训练。而如果书籍信息是ChatGPT从公开网络渠道获得的，那么这一行为的性质可能不同。负责这两起诉讼的律师事务所JosephSaveri称，其在去年11月，因版权问题起诉了微软旗下的GitHubCoplit；今年1月又起诉了AI图像生成器StableDiffusion；现在，其接受五名作家的委托起诉OpenAI。而除了OpenAI之外，该律所还在网站上称，将代表Silverman、Golden和Kadrey同时起诉Meta，因其人工智能模型LLaMA也使用了受版权保护的书籍来进行训练。...PC版：https://www.cnbeta.com.tw/articles/soft/1369937.htm手机版：https://m.cnbeta.com.tw/view/1369937.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人