研究：近一半热门新闻网站屏蔽了 OpenAI 爬虫

研究：近一半热门新闻网站屏蔽了 OpenAI 爬虫值得注意的是，在大多数国家，一些发布商在爬虫刚发布时就立即屏蔽了它们。OpenAI 于去年 8 月初启动了其人工智能爬虫，谷歌随后于 9 月份效仿。研究还表明，一旦做出屏蔽决定后，没有一家网站撤销对 OpenAI 或谷歌人工智能爬虫的屏蔽。

在Telegram中查看

相关推荐

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到 2023 年底，超过二分之一 (57%) 的传统印刷出版物网站（例如《纽约时报》）将屏蔽 OpenAI 的爬虫程序，而电视和广播公司的这一比例为 48%，数字媒体的比例为 31%。同样，32% 的印刷媒体屏蔽了 Google 的抓取工具，而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型，例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79% 的顶级在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，只有 20% 的网站这样做了。与此同时，德国 60% 的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有 7% 的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫，Google也于 9 月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对 OpenAI 或 Google AI 爬虫的屏蔽。 ... PC版：手机版：

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀 OpenAI 的网络爬虫《纽约时报》屏蔽了 OpenAI 的网络爬虫，这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的 robots.txt 页面，就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine，纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司，Books3 是一个用于训练 ChatGPT 的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

各大科技公司上万人研究 AI，但他们仍然比不上 OpenAI 小团队

各大科技公司上万人研究 AI，但他们仍然比不上 OpenAI 小团队 Glass. ai 是来自英国伦敦的一家分析公司，其最新数据显示，苹果、谷歌、亚马逊、微软、Meta 五大科技公司估计有 3.3 万人直接从事人工智能研发工作，其中亚马逊从事人工智能领域的员工最多，有 10113 人；微软在人工智能领域有 7133 名员工，而谷歌有 4970 名。Glass. ai 利用机器学习技术遍历了这些科技公司的网站和招聘平台 LinkedIn 上几千名从事人工智能研究的员工个人资料，从而得到上述数据。这些统计数字可能不包括亚马逊最近宣布的裁员计划，但也可能不包括那些实际上也在从事人工智能工作的软件工程师。这些数字不仅说明世界上那些最大科技公司在人工智能领域的研究工作是多么认真，而且也证实这些公司在利用人工智能技术开发服务方面又是多么缓慢谨慎。 OpenAI 不是一家产品公司，而是一家研发实验室。这意味着，公司在发布 ChatGPT 时，没有大批工程师和产品经理参与其中。在不少大型科技公司，这些工程师和产品经理往往会插手产品开发，不经意间制造瓶颈，阻碍新技术的发展。亚马逊在将人工智能研究转化为成功产品方面就有这样的反面例子，尽管拥有业内最大的人工智能研究团队，但亚马逊将虚拟数字助理 Alexa 在某种程度上是个失败产品，烧掉了亚马逊几十亿美元的资金。Alexa 的许多客户只是把它当作音乐播放器或是计时器使用。来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

微软和OpenAI遭到更多新闻机构的起诉

微软和OpenAI遭到更多新闻机构的起诉这些新闻公司都声称，OpenAI 的 ChatGPT（微软自己的聊天机器人 Copilot 也在使用）复制了他们网站上的新闻，作为人工智能训练的一部分。这些新闻机构还声称，当它们复制自己的报道时，并没有显示"这些作品中包含的作者、标题、版权或使用条款信息"。Alternet 和 Raw Story 声称，如果人们知道 ChatGPT 侵犯了他们报道的版权，那么 ChatGPT 就不会这么受欢迎了。他们还指出，网站所有者可以要求 OpenAI 不要访问他们的网站来用 ChatGPT 训练他们，并认为这意味着 OpenAI 和微软都知道 ChatGPT 可能会侵犯这些作品的版权。早在 2023 年 12 月，《纽约时报》就对 OpenAI 和微软提起了类似诉讼。该报纸和网站组织还声称 ChatGPT 非法访问了"《纽约时报》发表的数百万篇文章"。然而，本周 OpenAI 提起反诉，声称《纽约时报》实际上雇人入侵了 OpenAI 的服务。然后，这名身份不明的黑客利用聊天机器人中的一个漏洞，使用欺骗性的文本提示，诱导新闻机构在最初诉讼中显示的回复。看起来，微软和 OpenAI 与那些认为自己的内容被非法访问的新闻机构之间的法庭大战已经不可避免。这些法庭诉讼的最终结果将决定这些新闻网站是否有权让自己的报道远离人工智能生成服务。相关文章:研究称48%热门新闻网站屏蔽OpenAI爬虫 ... PC版：手机版：

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

Google似乎正在向一些新闻网站支付AI撰写文章的费用

Google似乎正在向一些新闻网站支付AI撰写文章的费用这已经不是我们第一次听说了。去年，Google被发现正在测试一款名为"Genesis"的人工智能工具，该工具能够帮助我们记者撰写新闻文章，而现在一份新的报告显示，这家搜索引擎巨头已经开始向小型出版商支付五位数的费用，以便他们能够继续尝试这款用于出版的生成式人工智能工具。另外值得注意的是，Google人工智能项目的这一试验目前规模较小，但确实需要媒体配合定期使用。作为协议的一部分，该公司希望出版商使用这一工具每天发布三篇文章，每周发布一份时事通讯，每月发布一次营销活动，这一切都是由人工智能完成的。Google平台的工作方式是从各个网站获取所有内容，然后将其整合到一个仪表板上。然后，这些内容会呈现给人工编辑，后者可以使用人工智能工具将仪表板上的任何新文章转化为新闻文章。最后一步是编辑在文章上线前对其进行微调。为了保持这项交易的相关性，新闻机构应该在 12 个月内发布这些由人工智能生成的文章，并向Google提供分析和反馈，消息来源称，这一平台目前可供一些小型媒体使用。另外需要注意的是，目前使用该工具的网站无需将这些文章标记为人工智能生成的。此外，内容聚合网站也不会收到通知，告知Google的工具正在使用它们的材料生成基于人工智能的故事和文章。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人