OpenAI版权诉讼越来越多 寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多 寻求更多数据来训练人工智能 问题的一部分在于,出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称,将受版权保护的材料放在互联网上使其公开可用,因此属于合理使用。但他们仍必须在法庭上提出这一论点,因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构,有时简称为 CIR,今年早些时候与 Mother Jones 和 Reveal 合并,上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻,以使他们的产品更加强大,但他们从未征求我们的许可或提供补偿,这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平,而且侵犯了版权。”诉讼称,该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中,两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月,作家协会诉讼案的法庭文件显示,OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示,这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称,负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议,以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据,它是人工生成的而不是从现实世界收集的,并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择,但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示: 只要你能跨越合成数据事件视界,让模型足够智能,能够生成良好的合成数据,那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据,另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版: 手机版:

相关推荐

封面图片

英伟达否认作者在“人工智能”诉讼中提出的版权侵权指控

英伟达否认作者在“人工智能”诉讼中提出的版权侵权指控 英伟达回应了数名美国作者提起的版权侵权诉讼。这家芯片制造商承认使用了“The Pile”数据集,其中包括有争议的 Books3 数据库。但是,英伟达否认了所有侵犯版权的指控,也拒绝使用“影子图书馆”一词。上周五,英伟达提交了起诉答辩状,对版权侵权指控做出了回应。英伟达承认使用了“The Pile”数据集进行训练。但明确否认多次复制 Books3 数据集。该公司写道:“英伟达否认将列出的数据存储库定性为‘影子库’,并否认在数据存储库中托管数据或分发数据必然违反美国版权法。” (摘抄部分)

封面图片

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权 喜剧演员 Sarah Silverman 以及两名作家 Richard Kadrey 和 Christopher Golden 向旧金山联邦法院提起集体诉讼,指控 Meta 和 OpenAI 使用受版权保护的材料训练 AI 聊天机器人。诉讼凸显了生成式 AI 工具所面临的法律风险。Silverman、Kadrey 和 Golden 指控 Meta 和 OpenAI 未经授权使用其书籍开发大语言模型。在针对 Meta 的诉讼中,原告称泄露的该公司 AI 业务信息显示他们的作品未经许可被使用。针对 OpenAI 的诉讼称,ChatGPT 生成的原告作品摘要表明它接受了受版权保护内容的训练。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

美国新法案要求人工智能公司披露受版权保护的训练数据

美国新法案要求人工智能公司披露受版权保护的训练数据 美国新法案将迫使科技公司披露用于训练其人工智能模型的任何受版权保护的数据。美国众议员 Adam Schiff (D-CA) 提出的生成人工智能版权披露法案将要求任何为人工智能制作训练数据集的人向版权登记处提交有关其内容的报告。报告应包含数据集中受版权保护的材料的详细摘要以及数据集的 URL (如果可公开获取)。此要求将扩展到对数据集所做的任何更改。公司必须在使用训练数据集的人工智能模型向公众发布之前“不迟于30天”提交报告。该法案不会追溯到现有的人工智能平台,除非其成为法律后对其训练数据集进行更改。

封面图片

【《纽约时报》禁止其新闻报道用于人工智能模型训练,考虑起诉 OpenAI】

【《纽约时报》禁止其新闻报道用于人工智能模型训练,考虑起诉 OpenAI】 OpenAI 可能面临《纽约时报》的起诉,原因是该公司使用了《纽约时报》的文章和图片来训练其人工智能模型,这违反了《纽约时报》的服务条款。如果诉讼成功,OpenAI 可能会遭受巨大的损失,包括删除其数据集、支付高额罚款等。《纽约时报》在本月更新了其服务条款,禁止任何使用其内容来开发任何软件程序,包括但不限于训练机器学习或 AI 系统。 快讯/广告 联系 @xingkong888885

封面图片

谷歌表示将保护生成式人工智能用户免受版权索赔

谷歌表示将保护生成式人工智能用户免受版权索赔 谷歌(Google)周四表示,如果谷歌云(Google Cloud)和 Workspace 平台上的生成式人工智能系统用户被指控侵犯知识产权,谷歌将为其辩护,微软、Adobe和其他公司也做出了类似承诺。 谷歌等大型科技公司一直在对生成式人工智能进行大量投资,并竞相将其纳入自己的产品。著名作家、插图画家和其他版权所有者在多起诉讼中表示,使用他们的作品来训练人工智能系统以及系统创造的内容都侵犯了他们的权利。 谷歌表示,新政策适用于软件,包括其 Vertex AI 开发平台和 Duet AI 系统,后者可在谷歌工作空间和云程序中生成文本和图像。新闻稿没有提及谷歌更知名的生成式人工智能聊天机器人程序 Bard。 该公司还表示,如果用户 "故意创建或使用生成的输出来侵犯他人的权利",则赔偿不适用。 (The Globe and Mail)

封面图片

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能 人工智能公司 OpenAI 已与 Reddit 达成协议,使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示,与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复),从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中,双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人