#OpenAI 签署协议以 Reddit 数据训练 #人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能人工智能公司 OpenAI 已与 Reddit 达成协议，使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示，与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复)，从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中，双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

Reddit 在 IPO 前签署人工智能内容许可协议

Reddit 在 IPO 前签署人工智能内容许可协议据知情人士透露，Reddit Inc. 已与一家大型人工智能公司达成了一项丰厚的协议，允许其使用社交媒体平台的内容来训练其模型。该公司即将启动期待已久的首次公开募股。知情人士称，这家总部位于旧金山的公司在 IPO 中告诉潜在投资者，该公司已于今年早些时候签署了该协议，该交易的年化价值约为6000万美元。其中一位人士说， Reddit 与一家未具名的大型人工智能公司签订的协议可能成为未来类似性质合同的范本。

Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议

Tumblr 母公司正在与 OpenAI 和 Midjourney 就人工智能训练数据达成协议据了解这些交易内部情况以及涉及这些内部交易文档的消息人士透露，WordPress.com 和 Tumblr 正准备将用户数据出售给 Midjourney 和 OpenAI 用于人工智能训练，交易即将进行。

Reddit 与谷歌达成人工智能内容授权协议

Reddit 与谷歌达成人工智能内容授权协议三名知情人士表示，社交媒体平台 Reddit 已与谷歌达成协议，将其内容可用于训练这家搜索引擎巨头的人工智能模型。其中一位消息人士称，协议价值约为每年6000万美元。彭博社此前报道了该交易，但未透露买家是谁。此外，两位消息人士称，Reddit 可能最快本周四提交 IPO 文件。

ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。

ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。据The Information报道，OpenAI每年提供100万至500万美元的版权新闻文章授权，以训练其人工智能模型。这是人工智能公司计划为授权材料支付多少费用的首批迹象之一。与此同时，最近的一份报告称，苹果正在寻求与媒体公司合作，将内容用于人工智能培训，并在多年期间提供至少5000万美元的数据。The Verge联系了OpenAI，请其对这些数字发表评论。这些数字似乎与早期的一些非人工智能授权交易大致相似。当Meta推出Facebook新闻标签时后来在欧洲停用了据称它每年提供高达300万美元的新闻报道、头条和预览许可。但目前尚不清楚，总支付额是否会达到我们所看到的一些更大的数字。例如，谷歌在2020年宣布，将投资10亿美元与新闻机构合作。在一项新法律的压力下，谷歌最近还同意每年向加拿大出版商支付总计1亿美元，以换取对其文章的链接。就我们所知，今天的大型语言模型的训练数据主要是来自互联网的信息。虽然一些人工智能模型没有透露它们是如何获得训练数据的，但通常可以获得有关使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供者、大小和数据集的内容而异。一些数据提供程序，如LAION，是开源的，完全免费的，被Stable Diffusion等模型使用。人工智能开发人员还经常设置网络爬虫，从互联网上获取数据，以帮助训练他们的模型。(人工智能开发人员仍然需要雇人来审查、标记，有时还要清理培训数据，这大大增加了运营成本。) 但这种做法现在面临着重大挑战。首先，OpenAI的GPT爬虫已经被一些公司阻止访问数据，包括《纽约时报》和The Verge的母公司Vox Media。另一方面，一些组织认为对他们的数据进行培训构成侵犯版权。《纽约时报》(New York Times)等媒体起诉OpenAI和微软侵犯版权，称ChatGPT和微软的Copilot可以生成几乎与其工作内容一字不差的输出。标签: #OpenAI #ChatGPT #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能

OpenAI版权诉讼越来越多寻求更多数据来训练人工智能问题的一部分在于，出版商越来越多地指责这些公司窃取受版权保护的数据。他们希望为自己的工作获得报酬。Meta 和 OpenAI在向美国版权局提交的评论中辩称，将受版权保护的材料放在互联网上使其公开可用，因此属于合理使用。但他们仍必须在法庭上提出这一论点，因为该公司面临来自多个团体的有关版权材料的诉讼。调查报道中心是一家非营利性新闻机构，有时简称为 CIR，今年早些时候与 Mother Jones 和 Reveal 合并，上周在联邦法院起诉了 OpenAI 和微软。诉讼指控OpenAI建立在对包括 CIR 在内的全球创作者的版权作品的剥削之上。CIR 的律师指控 OpenAI 和微软使用 Mother Jones 的版权材料来训练他们的 GPT 和 Copilot AI 模型。“OpenAI 和微软开始窃取我们的新闻，以使他们的产品更加强大，但他们从未征求我们的许可或提供补偿，这与其他获得我们材料许可的组织不同。”调查报道中心首席执行官莫妮卡·鲍尔莱因 (Monika Bauerlein)在一份关于诉讼的声明中表示。“这种搭便车行为不仅不公平，而且侵犯了版权。”诉讼称，该公司 WebText 训练集中存在的顶级网络域名发布的列表中出现了来自 Mother Jones 网络域名的 16,793 个不同的 URL。在作家协会的另一起集体诉讼中，两位作家声称该公司利用他们书中的信息来训练 ChatGPT。《纽约时报》也在 2023 年 12 月对该公司提起了类似的诉讼。今年 5 月，作家协会诉讼案的法庭文件显示，OpenAI 删除了用于训练 GPT-3 的两个庞大数据集。该协会的律师表示，这两组数据可能包含超过 10 万本已出版的书籍。法庭文件称，负责整理数据的两名员工不再为 OpenAI 工作。OpenAI 已开始与新闻机构签署许可协议，以公平使用其作品。该公司已与美联社、《华尔街日报》和《纽约邮报》的出版商、《大西洋月刊》、Prisa Media、《世界报》、《金融时报》和 Business Insider 母公司 Axel Springer 签署了此类协议。但这些机器人持续学习所需的内容规模将远远超过少数几份许可协议。一种解决方案是合成数据，它是人工生成的而不是从现实世界收集的，并且可以通过机器学习算法轻松生成。OpenAI 已将合成数据视为训练其模型的一种选择，但首席执行官 Sam Altman 对生成高质量数据表示担忧。奥尔特曼在 2023 年 5 月的一次技术会议上表示：只要你能跨越合成数据事件视界，让模型足够智能，能够生成良好的合成数据，那么一切都会好起来。该公司还探索了人工智能模型协同工作的过程一个人工智能系统生成数据，另一个人工智能系统对其进行判断。OpenAI 尚未立即回复评论请求。 ... PC版：手机版：

相关推荐