ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。

ChatGPT公司一直在努力让更多新闻机构签署许可协议以训练人工智能模型。据The Information报道，OpenAI每年提供100万至500万美元的版权新闻文章授权，以训练其人工智能模型。这是人工智能公司计划为授权材料支付多少费用的首批迹象之一。与此同时，最近的一份报告称，苹果正在寻求与媒体公司合作，将内容用于人工智能培训，并在多年期间提供至少5000万美元的数据。The Verge联系了OpenAI，请其对这些数字发表评论。这些数字似乎与早期的一些非人工智能授权交易大致相似。当Meta推出Facebook新闻标签时后来在欧洲停用了据称它每年提供高达300万美元的新闻报道、头条和预览许可。但目前尚不清楚，总支付额是否会达到我们所看到的一些更大的数字。例如，谷歌在2020年宣布，将投资10亿美元与新闻机构合作。在一项新法律的压力下，谷歌最近还同意每年向加拿大出版商支付总计1亿美元，以换取对其文章的链接。就我们所知，今天的大型语言模型的训练数据主要是来自互联网的信息。虽然一些人工智能模型没有透露它们是如何获得训练数据的，但通常可以获得有关使用了哪些数据集或网络爬虫的信息。训练数据集的定价因提供者、大小和数据集的内容而异。一些数据提供程序，如LAION，是开源的，完全免费的，被Stable Diffusion等模型使用。人工智能开发人员还经常设置网络爬虫，从互联网上获取数据，以帮助训练他们的模型。(人工智能开发人员仍然需要雇人来审查、标记，有时还要清理培训数据，这大大增加了运营成本。) 但这种做法现在面临着重大挑战。首先，OpenAI的GPT爬虫已经被一些公司阻止访问数据，包括《纽约时报》和The Verge的母公司Vox Media。另一方面，一些组织认为对他们的数据进行培训构成侵犯版权。《纽约时报》(New York Times)等媒体起诉OpenAI和微软侵犯版权，称ChatGPT和微软的Copilot可以生成几乎与其工作内容一字不差的输出。标签: #OpenAI #ChatGPT #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

OpenAI 签署协议以 Reddit 数据训练人工智能

OpenAI 签署协议以 Reddit 数据训练人工智能人工智能公司 OpenAI 已与 Reddit 达成协议，使用该社交新闻网站的数据来训练人工智能模型。OpenAI 表示，与 Reddit 的合作将使其能够访问 Reddit 上的“实时、结构化和独特内容” (例如帖子和回复)，从而使其工具和模型能够“更好地理解和展示”这些内容。Reddit 的内容将被整合到 OpenAI 流行的对话式人工智能 ChatGPT 中，双方将合作为 Reddit 用户和版主带来未具体说明的新“人工智能功能”。OpenAI 也将成为 Reddit 的广告合作伙伴。

OpenAI 表示已开始训练新的旗舰人工智能模型

OpenAI 表示已开始训练新的旗舰人工智能模型 OpenAI 周二表示，它已开始训练一种新的旗舰人工智能模型，该模型将取代驱动其流行在线聊天机器人 ChatGPT 的 GPT-4 技术。 OpenAI 在一篇博客文章中表示，希望新模型能够带来“更高水平的能力”，因为该公司致力于打造“通用人工智能”，即能够做任何人类大脑能做的事情的机器。新模型将成为人工智能产品的引擎，包括聊天机器人、类似于苹果 Siri 的数字助理、搜索引擎和图像生成器。，

人工智能公司正在转向“小型”语言模型以获利

人工智能公司正在转向“小型”语言模型以获利投入数十亿美元构建所谓的大型语言模型以推动生成式人工智能产品的人工智能公司，现在正寄望于一种新的收入增长方式：小型语言模型。苹果、微软、Meta 和谷歌最近都发布了新的人工智能模型，这些模型的“参数”较少，但功能仍然强大。通常来说，参数的数量越多，人工智能软件的性能就越好，能处理的任务也就越复杂和微妙。本周公布的 OpenAI 的最新模型 GPT-4o 和谷歌的 Gemini 1.5 Pro，据估计都拥有超过1万亿个参数。而 Meta 正在训练其开源 Llama 模型的4000亿参数版本。除了努力说服一些企业客户支付运行生成式人工智能产品所需的大额费用外，对数据和版权责任的担忧也阻碍了其广泛应用。这促使像 Meta 和谷歌这样的科技集团推出只有几十亿参数的小型语言模型，作为更经济、更节能、可定制的替代方案，这些模型在训练和运行时所需的电力更少，同时还能保护敏感数据。

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Reddit 在 IPO 前签署人工智能内容许可协议

Reddit 在 IPO 前签署人工智能内容许可协议据知情人士透露，Reddit Inc. 已与一家大型人工智能公司达成了一项丰厚的协议，允许其使用社交媒体平台的内容来训练其模型。该公司即将启动期待已久的首次公开募股。知情人士称，这家总部位于旧金山的公司在 IPO 中告诉潜在投资者，该公司已于今年早些时候签署了该协议，该交易的年化价值约为6000万美元。其中一位人士说， Reddit 与一家未具名的大型人工智能公司签订的协议可能成为未来类似性质合同的范本。

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型生成式人工智能的兴起刺激了对多样化数据集的需求，而像 Photobucket 这样的公司能够提供大量的视觉数据，训练人工智能根据文本提示生成内容。在 ChatGPT 于 2022 年底推出后不久，苹果公司就与 Shutterstock 达成了数百万张图片的授权协议，据信这笔交易的价值在 2500 万美元到 5000 万美元之间。追求"道德来源"和合法明确的数据，标志着苹果与早先随意采集网络数据的做法不同。据报道，苹果公司准备在 6 月份的 WWDC 大会上展示iOS 18及其他主要软件更新所带来的一系列人工智能功能。相关文章:Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人