作者指责 OpenAI 使用盗版网站训练 ChatGPT

作者指责 OpenAI 使用盗版网站训练 ChatGPT 本周，作者和对 OpenAI 提起集体诉讼，指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等。据作者称，ChatGPT 未经许可就对其受版权保护的作品进行了部分培训。诉讼中提供的证据看似简单。作者从未授权 OpenAI 使用他们的作品，但 ChatGPT 可以提供他们作品的准确摘要。这些信息一定来自某个地方。虽然这些类型的指控并不新鲜，但本周的诉讼指控 OpenAI 使用盗版网站作为训练输入。这可能包括Z-Library ，这是一个拥有数百万册盗版图书的影子图书馆。 OpenAI 尚未透露 ChatGPT 训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约 63,000 个标题，后者包含大约 294,000 个标题。这些数字孤立起来毫无意义。然而，作者指出，OpenAI 一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如、、和。目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致 OpenAI 不得不披露一些训练数据。

在Telegram中查看

相关推荐

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张

OpenAI 驳斥 ChatGPT 的回复是衍生作品的主张 OpenAI 的 ChatGPT 使用了海量数据训练，其中包括许多作家的作品。有多位作家提起了集体诉讼，指控 OpenAI 侵犯版权、违反 DMCA、不公平竞争、不当得利、ChatGPT 的每条回复都是衍生作品等等。OpenAI 逐一驳斥了这些主张。OpenAI 认为，作家们误解了版权保护的范围，没有考虑限制和合理使用等例外，版权的限制和例外为大模型等创新留出了空间。创新者以变革的方式使用版权材料并没有侵犯版权。版权法的目的是促进科学和实用艺术的进步，而不是作者所表达想法本身。OpenAI 还以 Google Books 诉讼为例，指出图书中的词频、句法模式和主题标记等统计信息超出了版权保护的范围。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

OpenAI 因使用新闻媒体的文章训练 ChatGPT 而被指责

OpenAI 因使用新闻媒体的文章训练 ChatGPT 而被指责主要新闻媒体已经开始批评 OpenAI 及其 ChatGPT 软件，称该实验室正在使用他们的文章来训练其人工智能工具而没有支付费用。新闻集团道琼斯部门的总法律顾问贾森·康蒂在提供给彭博新闻社在一份声明中说：“任何想要使用《华尔街日报》记者的作品来训练人工智能的人都应该从道琼斯那里获得适当的授权。道琼斯与 OpenAI 没有这样的交易。” 孔蒂补充说：“我们严肃对待滥用我们记者工作的行为，并正在审查这种情况。” 当计算记者 Francesco Marconi 本周发布一条推文说他们的工作被用来训练 ChatGPT 时，这些新闻集团的担忧就产生了。马可尼说，他要求聊天机器人提供一份它所训练的新闻来源清单，并收到了一份列有20家机构的回复。

OpenAI推出ChatGPT Edu教育版免费使用并且可以自定义数据进行训练

OpenAI推出ChatGPT Edu教育版免费使用并且可以自定义数据进行训练 OpenAI 正在面向美国等市场的大学和教育机构推出完全免费的 ChatGPT Edu 版，该版本不仅可以免费使用，同时大学和教育机构还可以使用内部数据进行 GPT 训练，以便向学生提供专门的数据集和模型。 ChatGPT Edu 向学生、学者和教职工提供 GPT-4o 模型，这是 OpenAI 推出的最新模型，支持文本对话、语音输入 / 输出、视觉模型、图像生成等功能。 OpenAI 称 GPT-4o 模型在解释文本内容、编程开发、数学、分析数据和网络访问方面比以前的版本更好，这将有助于学生和学者借助 AI 技术学习和教学。 ChatGPT Edu 同样有限制不过比免费版的配额要高不少，这应该可以满足学生和教职工的使用需求。后续 OpenAI 应该会逐渐将 ChatGPT Edu 扩展到更多市场，让更多高校可以为部署 ChatGPT Edu 提高教学能力并激发学生的学习兴趣。来源，频道：@kejiqu 群组：@kejiquchat

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权

Sarah Silverman 起诉 Meta 和 OpenAI 侵犯版权喜剧演员 Sarah Silverman 以及两名作家 Richard Kadrey 和 Christopher Golden 向旧金山联邦法院提起集体诉讼，指控 Meta 和 OpenAI 使用受版权保护的材料训练 AI 聊天机器人。诉讼凸显了生成式 AI 工具所面临的法律风险。Silverman、Kadrey 和 Golden 指控 Meta 和 OpenAI 未经授权使用其书籍开发大语言模型。在针对 Meta 的诉讼中，原告称泄露的该公司 AI 业务信息显示他们的作品未经许可被使用。针对 OpenAI 的诉讼称，ChatGPT 生成的原告作品摘要表明它接受了受版权保护内容的训练。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI

训练 ChatGPT 等模型不付钱？美国新闻集团拟起诉微软、谷歌、OpenAI 华尔街日报报道，AI 技术的发展已经引发了新闻出版业的不满，他们认为自己的内容被大型科技公司用于训练 AI 模型而没有得到合理的补偿。拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等的美国新闻集团正准备向 OpenAI、微软和谷歌等公司提起诉讼，要求赔偿其内容在 ChatGPT、Bard 等 AI 工具中被用来使用的费用。当前这是一个复杂而模糊的法律问题，涉及到 AI 公司是否有权从互联网上抓取内容，并将其输入到训练模型中。一些批评者认为，这是一种工业规模的知识产权盗窃行为。出版商担心，AI 工具可能会影响他们网站的流量和广告收入。事实上，AI 版权问题并非始于 ChatGPT。在图像和代码方面，已经有多起诉讼案件涉及到 AI 模型训练使用受版权保护的数据。例如，Midjourney、Stability AI、微软、GitHub 以及 OpenAI 都曾卷入相关纠纷。目前，对于 AI 创作是否受版权保护还没有形成固定的准则。法律人士认为，所有针对生成式 AI 的案件可能需要数年时间才能结案。科技公司与内容出版商进行协商寻求使用许可，或许是最好的解决办法。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

ChatGPT 使用了 3000 万字的语料进行训练，OpenAI 从网络上抓取了这些语料，其中可能包括私人信息。这个庞大的数据

ChatGPT 使用了 3000 万字的语料进行训练，OpenAI 从网络上抓取了这些语料，其中可能包括私人信息。这个庞大的数据集可能是隐私的噩梦。OpenAI 并未征得资料所有者的同意，也没有提供流程允许用户检查该公司是否储存了个人数据。ChatGPT 在回答用户提问时可能会返回版权材料，比如一本受版权保护书籍中的几段文字。它在回答问题时也可能会不小心向用户提供敏感信息。随着 ChatGPT 的日益流行，它的隐私保护问题会引起越来越多人的关注。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人