OpenAI版权诉讼越来越多寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能问题的一部分在于，出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其公开可用，因此属于合理使用。但他们仍必须在法庭上提出这一论点，因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构，有时简称为 CIR，今年早些时候与 Mother Jones 和 Reveal 合并，上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻，以使他们的产品更加强大，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平，而且侵犯了版权。”诉讼称，该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中，两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月，作家协会诉讼案的法庭文件显示，OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示，这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称，负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议，以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据，它是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择，但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示：只要你能跨越合成数据事件视界，让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据，另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版：手机版：

在Telegram中查看

相关推荐

英伟达否认作者在“人工智能”诉讼中提出的版权侵权指控

英伟达否认作者在“人工智能”诉讼中提出的版权侵权指控英伟达回应了数名美国作者提起的版权侵权诉讼。这家芯片制造商承认使用了“The Pile”数据集，其中包括有争议的 Books3 数据库。但是，英伟达否认了所有侵犯版权的指控，也拒绝使用“影子图书馆”一词。上周五，英伟达提交了起诉答辩状，对版权侵权指控做出了回应。英伟达承认使用了“The Pile”数据集进行训练。但明确否认多次复制 Books3 数据集。该公司写道：“英伟达否认将列出的数据存储库定性为‘影子库’，并否认在数据存储库中托管数据或分发数据必然违反美国版权法。” （摘抄部分）

美国新法案要求人工智能公司披露受版权保护的训练数据

美国新法案要求人工智能公司披露受版权保护的训练数据美国新法案将迫使科技公司披露用于训练其人工智能模型的任何受版权保护的数据。美国众议员 Adam Schiff (D-CA) 提出的生成人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包含数据集中受版权保护的材料的详细摘要以及数据集的 URL (如果可公开获取)。此要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台，除非其成为法律后对其训练数据集进行更改。

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权喜剧演员 Sarah Silverman 以及两名作家 Richard Kadrey 和 Christopher Golden 向旧金山联邦法院提起集体诉讼，指控 Meta 和 OpenAI 使用受版权保护的材料训练 AI 聊天机器人。诉讼凸显了生成式 AI 工具所面临的法律风险。Silverman、Kadrey 和 Golden 指控 Meta 和 OpenAI 未经授权使用其书籍开发大语言模型。在针对 Meta 的诉讼中，原告称泄露的该公司 AI 业务信息显示他们的作品未经许可被使用。针对 OpenAI 的诉讼称，ChatGPT 生成的原告作品摘要表明它接受了受版权保护内容的训练。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

谷歌表示将保护生成式人工智能用户免受版权索赔

谷歌表示将保护生成式人工智能用户免受版权索赔谷歌（Google）周四表示，如果谷歌云（Google Cloud）和 Workspace 平台上的生成式人工智能系统用户被指控侵犯知识产权，谷歌将为其辩护，微软、Adobe和其他公司也做出了类似承诺。谷歌等大型科技公司一直在对生成式人工智能进行大量投资，并竞相将其纳入自己的产品。著名作家、插图画家和其他版权所有者在多起诉讼中表示，使用他们的作品来训练人工智能系统以及系统创造的内容都侵犯了他们的权利。谷歌表示，新政策适用于软件，包括其 Vertex AI 开发平台和 Duet AI 系统，后者可在谷歌工作空间和云程序中生成文本和图像。新闻稿没有提及谷歌更知名的生成式人工智能聊天机器人程序 Bard。该公司还表示，如果用户 "故意创建或使用生成的输出来侵犯他人的权利"，则赔偿不适用。 (The Globe and Mail)

狡猾的人工智能模型故意破坏训练图像以规避版权问题

狡猾的人工智能模型故意破坏训练图像以规避版权问题 Ambient Diffusion 是一种文本到图像的人工智能模型，它通过使用严重破坏的图像来保护艺术家的版权。文本到图像生成器的一个大问题是，它们能够复制用来训练它们的原创作品，从而侵犯艺术家的版权。根据美国法律，如果你创作了原创作品并将其"固定"为有形的形式，你就拥有了它的版权字面意思是复制它的权利。在大多数情况下，未经创作者授权，不得使用受版权保护的图片。今年5 月，Google母公司 Alphabet 遭到一群艺术家的集体版权诉讼，声称Google未经许可使用了他们的作品来训练其人工智能图像生成器 Imagen。Stability AI、Midjourney 和 DeviantArt（它们都使用了 Stability 的 Stable Diffusion 工具）也面临着类似的诉讼。为了避免这个问题，德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架，该框架只对已损坏到无法识别的图像进行训练，从而消除了人工智能记忆和复制原创作品的可能性。扩散模型是一种先进的机器学习算法，它通过向数据集逐步添加噪声来生成高质量的数据，然后学习逆转这一过程。最近的研究表明，这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子：人工智能需要接受 X 光扫描训练，但不能记住特定病人的图像，否则就会侵犯病人的隐私。为了避免这种情况，模型制作者可以引入图像损坏。研究人员利用他们的环境扩散框架证明，只需使用高度损坏的样本，就能训练扩散模型生成高质量的图像。根据"干净"（左）和损坏（右）的训练图像生成的环境扩散输出结果上图显示了在使用损坏时图像输出的差异。研究人员首先用 CelebA-HQ 高质量名人图片数据库中的 3000 张"干净"图片对模型进行了训练。根据提示，该模型生成的图像与原图几乎完全相同（左图）。然后，他们使用 3000 张高度损坏的图像对模型进行了重新训练，其中多达 90% 的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生，但结果却大相径庭（右图）。UT奥斯汀分校计算机科学教授亚当-克里万斯（Adam Klivans）是这项研究的共同作者，他表示："从黑洞成像到某些类型的核磁共振成像扫描，基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"与现有的文本到图像生成器一样，其结果并非每次都完美无缺。关键是，艺术家们知道像 Ambient Diffusion 这样的模型不会记住并复制他们的原创作品，就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗？不会，但这就是法院的职责所在。研究人员已将他们的代码和环境扩散模型开源，以鼓励进一步的研究。可在GitHub 上查阅。该研究发表在预印本网站arXiv 上。 ... PC版：手机版：

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能人工智能公司 OpenAI 已与 Reddit 达成协议，使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示，与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复)，从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中，双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人