NYT、CNN 和 ABC 屏蔽 OpenAI 的 GPTBot 爬取内容

NYT、CNN和ABC屏蔽OpenAI的GPTBot爬取内容纽约时报（NYT）、CNN、路透社、澳大利亚广播公司（ABC）、芝加哥论坛报、以及AustralianCommunityMedia旗下的坎培拉时报和纽卡斯尔先驱报等媒体都屏蔽了OpenAI的网络爬虫GPTBot抓取其网站上的内容。大语言模型需要海量数据进行训练，但数据的版权问题引发了很多争议。这些媒体公司都是本月内在robots.txt文件中禁止了GPTBot的访问。部分媒体还屏蔽了另一个被用于AI项目的爬虫程序CCBot。CNN证实它屏蔽了GPTBot，但没有评论是否就其内容被AI系统使用采取进一步的行动。来源，频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

在Telegram中查看

相关推荐

纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容

纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容TheVerge最先报道了《纽约时报》在其网站上屏蔽了GPTBot。《卫报》随后发现，其他主要新闻网站，包括CNN、路透社、《芝加哥论坛报》、澳大利亚广播公司（ABC）和澳大利亚社区媒体（ACM）品牌，如《堪培拉时报》和《纽卡斯尔先驱报》似乎也倾向于禁止使用网络爬虫。所谓的大型语言模型（如ChatGPT）需要大量信息来训练系统，使其能够以类似人类语言模式的方式回答用户的询问。但是，这些模型背后的公司往往对其数据集中是否存在受版权保护的资料讳莫如深。在出版商的robots.txt文件中可以看到对GPTBot的封杀，这些文件告诉搜索引擎和其他实体的爬虫可以访问哪些页面。"允许GPTBot访问您的网站可以帮助人工智能模型变得更加准确，并提高它们的总体能力和安全性，"OpenAI在一篇博文中说，博文中包含了如何禁止爬虫的说明。所有接受检查的媒体都在八月份添加了该拦截功能。一些媒体还禁止使用CCBot，它是一个名为"CommonCrawl"的开放式网络数据存储库的网络爬虫，也被用于人工智能项目。美国有线电视新闻网（CNN）证实，该公司最近在旗下所有刊物中屏蔽了GPTBot，但并未就该品牌是否计划对其内容在人工智能系统中的使用采取进一步行动发表评论。路透社发言人表示，路透社会定期审查其robots.txt和网站条款。她说："因为知识产权是我们业务的命脉，所以我们必须保护我们内容的版权。"《纽约时报》的一位发言人表示，该公司最近更新了服务条款，更加明确地禁止"为人工智能培训和开发目的......剪切我们的内容"。自8月3日起，其网站规则明确禁止未经同意将出版商的内容用于"开发任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统"。全球新闻机构都面临着是否将人工智能作为新闻采集的一部分，以及如何处理其内容可能被开发人工智能系统的公司吸入训练池的问题。人工智能是新闻业的威胁，还是技术会自我毁灭？8月初，法新社和盖蒂图片社等媒体签署了一封公开信，呼吁对人工智能进行监管，包括"用于创建人工智能模型的所有训练集的构成"的透明度，以及使用受版权保护材料的许可。Google建议，除非出版商明确表示不同意，否则人工智能系统应该可以采集出版商的作品。在向澳大利亚政府提交的一份人工智能监管框架审查报告中，该公司主张"版权制度应允许适当、公平地使用受版权保护的内容，以便在澳大利亚利用广泛多样的数据训练人工智能模型，同时支持可行的退出方式"。OriginalityAI是一家检查是否存在人工智能内容的公司，该公司本周分享的研究发现，包括亚马逊和Shutterstock在内的主要网站也屏蔽了GPTBot。澳大利亚广播公司（ABC）、澳大利亚社区媒体（AustralianCommunityMedia）、《芝加哥论坛报》（ChicagoTribune）、OpenAI和CommonCrawl在截止日期前没有做出回应。...PC版：https://www.cnbeta.com.tw/articles/soft/1379533.htm手机版：https://m.cnbeta.com.tw/view/1379533.htm

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到2023年底，超过二分之一(57%)的传统印刷出版物网站（例如《纽约时报》）将屏蔽OpenAI的爬虫程序，而电视和广播公司的这一比例为48%，数字媒体的比例为31%。同样，32%的印刷媒体屏蔽了Google的抓取工具，而19%的广播公司和17%的数字媒体也采取了同样的做法。Gartner副总裁、杰出分析师安德鲁·弗兰克(AndrewFrank)表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的Googlebot这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI的爬虫GPTBot通过互联网收集数据来训练其大型语言模型，例如ChatGPT。这使得人工智能工具能够生成准确的同步数据——新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5到100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79%的顶级在线新闻网站屏蔽了OpenAI，而在墨西哥和波兰，只有20%的网站这样做了。与此同时，德国60%的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有7%的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽GoogleAI的网站也屏蔽了OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明OpenAI在Google之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI于去年8月初推出了人工智能爬虫，Google也于9月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对OpenAI或GoogleAI爬虫的屏蔽。...PC版：https://www.cnbeta.com.tw/articles/soft/1421033.htm手机版：https://m.cnbeta.com.tw/view/1421033.htm

BBC正在阻止OpenAI数据爬取但对AI新闻报道持开放态度

BBC正在阻止OpenAI数据爬取但对AI新闻报道持开放态度这三个指导原则是，BBC将始终以公众的最大利益为出发点，通过尊重艺术家的权利来优先考虑人才和创造力，并对人工智能产出公开透明。BBC表示，将与科技公司、其他媒体组织和监管机构合作，安全开发生成式人工智能，并重点维护对新闻行业的信任。戴维斯在《未来几个月》中表示：“在接下来的几个月中，我们将启动一系列项目，探索在我们的产品和工作方式中使用GenAI，采取有针对性的方法，以便更好地了解机遇和风险。这些项目将评估GenAI如何潜在地支持、补充甚至改变BBC在一系列领域的活动，包括新闻研究和制作、内容发现和存档以及个性化体验。”该公司没有具体说明这些项目。其他新闻机构也阐述了他们对这项技术的看法。美联社今年早些时候发布了自己的指导方针。它还与OpenAI合作，分享其训练GPT模型的故事。但当BBC决定如何最好地使用生成式人工智能时，显然它阻止了OpenAI和CommonCrawl的网络爬虫访问BBC网站。它与CNN、纽约时报、路透社和其他新闻机构一起阻止网络爬虫访问其受版权保护的材料。戴维斯表示，此举是为了“维护许可费支付者的利益”，未经其许可使用BBC数据训练人工智能模型不符合公共利益。...PC版：https://www.cnbeta.com.tw/articles/soft/1388491.htm手机版：https://m.cnbeta.com.tw/view/1388491.htm

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀OpenAI的网络爬虫《纽约时报》屏蔽了OpenAI的网络爬虫，这意味着OpenAI无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的robots.txt页面，就会发现《纽约时报》禁止使用OpenAI本月早些时候推出的爬虫GPTBot。根据互联网档案馆的WaybackMachine，纽约时报似乎早在8月17日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在7月份就OpenAI使用Books3训练ChatGPT而起诉该公司，Books3是一个用于训练ChatGPT的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。——

纽约时报控告OpenAI、微软擅自使用网站内容训练AI

纽约时报控告OpenAI、微软擅自使用网站内容训练AIhttps://www.ithome.com.tw/news/160589https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf（英文）这次控告，纽时并未寻求特定金额赔偿，但他们估计因被告滥用其内容造成的损害上看数十亿美元。这家媒体龙头也要求OpenAI及微软摧毁使用其内容训练出的AI模型及训练资料集。———2023/12/142023/07/142023/05/02

OpenAI 回应被指控侵权：《纽约时报》提示策略违反其服务条款

OpenAI回应被指控侵权：《纽约时报》提示策略违反其服务条款上周，纽约时报在曼哈顿联邦地区法院对OpenAI和微软发起诉讼，声称对方公司“未经授权而使用了数百万”文章来训练其AI模型，导致其AI生成的内容现在会与《纽约时报》的内容“直接竞争”。OpenAI针对《纽约时报》的侵权指控回应称：该机构一直在文章的开头提示GPT模型，导致模型产出的文本十分接近原文，从而增加了侵犯版权的可能性，相当于是鼓励侵权。OpenAI知识产权和内容主管TomRubin在给《华盛顿邮报》的电子邮件中表示，这些提示违反了OpenAI语言模型的使用条款，《纽约时报》在故意利用这些提示来让模型复制训练数据。他表示，OpenAI一直在努力使其产品能够更好地抵御此类“滥用”。《纽约时报》此前已经屏蔽了OpenAI的网络爬虫，禁止这家公司使用从其网站上抓取到内容来训练其AI模型。对于此次诉讼，纽约时报要求对方公司因涉嫌复制其作品而承担“数十亿美元的法定和实际损失”。投稿：@TNSubmbot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人