NYT、CNN 和 ABC 屏蔽 OpenAI 的 GPTBot 爬取内容

NYT、CNN 和 ABC 屏蔽 OpenAI 的 GPTBot 爬取内容纽约时报（NYT）、CNN、路透社、澳大利亚广播公司（ABC）、芝加哥论坛报、以及 Australian Community Media 旗下的坎培拉时报和纽卡斯尔先驱报等媒体都屏蔽了 OpenAI 的网络爬虫 GPTBot 抓取其网站上的内容。大语言模型需要海量数据进行训练，但数据的版权问题引发了很多争议。这些媒体公司都是本月内在 robots.txt 文件中禁止了 GPTBot 的访问。部分媒体还屏蔽了另一个被用于 AI 项目的爬虫程序 CCBot。CNN 证实它屏蔽了 GPTBot，但没有评论是否就其内容被 AI 系统使用采取进一步的行动。来源，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到 2023 年底，超过二分之一 (57%) 的传统印刷出版物网站（例如《纽约时报》）将屏蔽 OpenAI 的爬虫程序，而电视和广播公司的这一比例为 48%，数字媒体的比例为 31%。同样，32% 的印刷媒体屏蔽了 Google 的抓取工具，而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型，例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79% 的顶级在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，只有 20% 的网站这样做了。与此同时，德国 60% 的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有 7% 的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫，Google也于 9 月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对 OpenAI 或 Google AI 爬虫的屏蔽。 ... PC版：手机版：

研究：近一半热门新闻网站屏蔽了 OpenAI 爬虫

研究：近一半热门新闻网站屏蔽了 OpenAI 爬虫值得注意的是，在大多数国家，一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫，谷歌随后于 9 月份效仿。研究还表明，一旦做出屏蔽决定后，没有一家网站撤销对 OpenAI 或谷歌人工智能爬虫的屏蔽。

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀 OpenAI 的网络爬虫《纽约时报》屏蔽了 OpenAI 的网络爬虫，这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的 robots.txt 页面，就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine，纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司，Books3 是一个用于训练 ChatGPT 的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

《纽约时报》已经封锁了OpenAI的网络爬虫，这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。

《纽约时报》已经封锁了OpenAI的网络爬虫，这意味着OpenAI不能使用该出版物中的内容来训练其AI模型。如果你查看《纽约时报》的页面，你可以看到《纽约时报》不允许使用本月早些时候推出的爬虫GPTBot。根据互联网档案馆的 Wayback Machine，纽约时报似乎早在 8 月 17 日就阻止了爬虫。这一变化是在《纽约时报》在本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。《纽约时报》发言人查理·斯塔特兰德（Charlie Stadtlander）发言人拒绝置评。OpenAI没有立即回复置评请求。标签: #NYTimes #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

《纽约时报》正在起诉OpenAI和微软，称这两家公司通过“复制和使用数百万篇”该出版物的文章来构建他们的人工智能模型，现在与该出

《纽约时报》正在起诉OpenAI和微软，称这两家公司通过“复制和使用数百万篇”该出版物的文章来构建他们的人工智能模型，现在与该出版物的内容“直接竞争”。并要求它们对涉嫌复制其作品而承担“数十亿美元的法定和实际损害赔偿”。根据诉讼文件的描述，泰晤士报指控OpenAI和微软的大型语言模型（LLMs），这些模型驱动了ChatGPT和Copilot，“能够生成完全照搬泰晤士报内容、紧密总结其内容以及模仿其表达风格的输出。”该媒体机构称，这“削弱并损害”了泰晤士报与读者的关系，同时也剥夺了它的“订阅、授权、广告和联盟收入。” 与此同时，诉讼指出，基于《纽约时报》内容训练的人工智能模型的发布对微软和OpenAI两家公司来说已经证明是“极其有利可图”的。该出版物声称，它已经尝试与这两家公司进行了数月的谈判，以“确保其内容的使用得到公平的价值”，但未能找到解决方案。《纽约时报》是众多阻止OpenAI网络爬虫的新闻媒体之一，阻止这家人工智能公司从其网站抓取内容并用于训练其AI模型。标签: #微软 #纽约时报 #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人