纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容

纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容TheVerge最先报道了《纽约时报》在其网站上屏蔽了GPTBot。《卫报》随后发现，其他主要新闻网站，包括CNN、路透社、《芝加哥论坛报》、澳大利亚广播公司（ABC）和澳大利亚社区媒体（ACM）品牌，如《堪培拉时报》和《纽卡斯尔先驱报》似乎也倾向于禁止使用网络爬虫。所谓的大型语言模型（如ChatGPT）需要大量信息来训练系统，使其能够以类似人类语言模式的方式回答用户的询问。但是，这些模型背后的公司往往对其数据集中是否存在受版权保护的资料讳莫如深。在出版商的robots.txt文件中可以看到对GPTBot的封杀，这些文件告诉搜索引擎和其他实体的爬虫可以访问哪些页面。"允许GPTBot访问您的网站可以帮助人工智能模型变得更加准确，并提高它们的总体能力和安全性，"OpenAI在一篇博文中说，博文中包含了如何禁止爬虫的说明。所有接受检查的媒体都在八月份添加了该拦截功能。一些媒体还禁止使用CCBot，它是一个名为"CommonCrawl"的开放式网络数据存储库的网络爬虫，也被用于人工智能项目。美国有线电视新闻网（CNN）证实，该公司最近在旗下所有刊物中屏蔽了GPTBot，但并未就该品牌是否计划对其内容在人工智能系统中的使用采取进一步行动发表评论。路透社发言人表示，路透社会定期审查其robots.txt和网站条款。她说："因为知识产权是我们业务的命脉，所以我们必须保护我们内容的版权。"《纽约时报》的一位发言人表示，该公司最近更新了服务条款，更加明确地禁止"为人工智能培训和开发目的......剪切我们的内容"。自8月3日起，其网站规则明确禁止未经同意将出版商的内容用于"开发任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统"。全球新闻机构都面临着是否将人工智能作为新闻采集的一部分，以及如何处理其内容可能被开发人工智能系统的公司吸入训练池的问题。人工智能是新闻业的威胁，还是技术会自我毁灭？8月初，法新社和盖蒂图片社等媒体签署了一封公开信，呼吁对人工智能进行监管，包括"用于创建人工智能模型的所有训练集的构成"的透明度，以及使用受版权保护材料的许可。Google建议，除非出版商明确表示不同意，否则人工智能系统应该可以采集出版商的作品。在向澳大利亚政府提交的一份人工智能监管框架审查报告中，该公司主张"版权制度应允许适当、公平地使用受版权保护的内容，以便在澳大利亚利用广泛多样的数据训练人工智能模型，同时支持可行的退出方式"。OriginalityAI是一家检查是否存在人工智能内容的公司，该公司本周分享的研究发现，包括亚马逊和Shutterstock在内的主要网站也屏蔽了GPTBot。澳大利亚广播公司（ABC）、澳大利亚社区媒体（AustralianCommunityMedia）、《芝加哥论坛报》（ChicagoTribune）、OpenAI和CommonCrawl在截止日期前没有做出回应。...PC版：https://www.cnbeta.com.tw/articles/soft/1379533.htm手机版：https://m.cnbeta.com.tw/view/1379533.htm

在Telegram中查看

相关推荐

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀OpenAI的网络爬虫《纽约时报》屏蔽了OpenAI的网络爬虫，这意味着OpenAI无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的robots.txt页面，就会发现《纽约时报》禁止使用OpenAI本月早些时候推出的爬虫GPTBot。根据互联网档案馆的WaybackMachine，纽约时报似乎早在8月17日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在7月份就OpenAI使用Books3训练ChatGPT而起诉该公司，Books3是一个用于训练ChatGPT的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。——

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到2023年底，超过二分之一(57%)的传统印刷出版物网站（例如《纽约时报》）将屏蔽OpenAI的爬虫程序，而电视和广播公司的这一比例为48%，数字媒体的比例为31%。同样，32%的印刷媒体屏蔽了Google的抓取工具，而19%的广播公司和17%的数字媒体也采取了同样的做法。Gartner副总裁、杰出分析师安德鲁·弗兰克(AndrewFrank)表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的Googlebot这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI的爬虫GPTBot通过互联网收集数据来训练其大型语言模型，例如ChatGPT。这使得人工智能工具能够生成准确的同步数据——新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5到100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79%的顶级在线新闻网站屏蔽了OpenAI，而在墨西哥和波兰，只有20%的网站这样做了。与此同时，德国60%的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有7%的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽GoogleAI的网站也屏蔽了OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明OpenAI在Google之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI于去年8月初推出了人工智能爬虫，Google也于9月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对OpenAI或GoogleAI爬虫的屏蔽。...PC版：https://www.cnbeta.com.tw/articles/soft/1421033.htm手机版：https://m.cnbeta.com.tw/view/1421033.htm

纽约时报禁止使用其内容来训练人工智能模型

纽约时报禁止使用其内容来训练人工智能模型《纽约时报》已采取先发制人的措施，阻止其内容被用于训练人工智能模型。据Adweek报道，《纽约时报》于8月3日更新了服务条款，禁止将其内容（包括文字、照片、图像、音频/视频剪辑、“外观和感觉”、元数据或汇编）用于开发“任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统。”更新后的条款还规定，未经出版物的书面许可，不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示，拒绝遵守这些新限制可能会导致未具体说明的罚款或处罚。尽管在其政策中引入了新规则，但该出版物似乎并未对其robots.txt进行任何修改，该文件用于告知搜索引擎爬虫哪些URL可以访问。——

微软将在澳大利亚斥资32亿美元构建AI和云计算能力

微软将在澳大利亚斥资32亿美元构建AI和云计算能力自从微软支持的OpenAI在2022年推出了强大的语言模型ChatGPT震惊了科技界之后，微软就开始就人工智能的监管问题进行公开咨询。微软表示，除50亿澳元外，它还将支持培训30万澳大利亚人掌握"在数字经济中取得成功"所需的技能，并扩大与澳大利亚网络安全机构澳大利亚信号指导委员会（AustralianSignalsDirectorate）的网络威胁信息共享协议。澳大利亚总理安东尼-阿尔巴内塞在微软发表的一份声明中说："这是对未来技能和工人的重大投资。我们需要提供技能，使澳大利亚人能够在未来的工作岗位上取得成功。"微软副董事长兼总裁布拉德-史密斯（BradSmith）说，这项支出计划"证明了我们对澳大利亚在人工智能时代实现增长和繁荣的承诺"。微软澳大利亚总经理史蒂文-沃勒尔（StevenWorrall）说，这笔开支"不仅将使数字经济更加安全可靠，还将为促进人工智能时代的增长和创新提供一个平台"。该公司没有详细说明将如何使用这50亿澳元，只是表示将大幅提高计算能力。该公司表示，将把在澳大利亚的数据中心布局从20个扩展到29个。微软最近联合撰写的一份报告称，到2030年，如果迅速采用生成式人工智能（一种适应新数据输入的自动化形式），每年可为澳大利亚经济贡献高达1150亿澳元。澳大利亚没有专门针对人工智能的法规，但版权律师和人权组织表示，这项技术必须有一些保护措施，以防止偏见、版权侵犯和隐私泄露。...PC版：https://www.cnbeta.com.tw/articles/soft/1391779.htm手机版：https://m.cnbeta.com.tw/view/1391779.htm

Cloudflare为免费用户推出AI爬虫防护功能可自动识别和阻止抓取内容的爬虫

Cloudflare为免费用户推出AI爬虫防护功能可自动识别和阻止抓取内容的爬虫新推出的AI爬虫防护(AIScrapersandCrawlers)则是面向所有用户推出的一键设置，无论是免费还是订阅用户，只需要一键开启该选项后即可。CloudFlare称开启此选项后将会阻止机器人和爬虫抓取网站内容用于训练人工智能模型，这可以避免某些人工智能公司未经授权直接抓取网站内容。背后的运作原理暂时还不清楚，不过大概率是CloudFlare已经整理并识别常见的AI爬虫例如OpenAI的GPTBot，只要根据这些爬虫的名称进行拦截即可。CloudFlare为数以百万计的网站提供安全防护和分发服务，因此这项功能也确实有实际意义，毕竟有不少网站尤其是新闻媒体类的网站都是版权保护的。只不过问题在于爬虫识别本身也是防君子不防小人，像OpenAI这样公布自己的爬虫名称并表示会遵守robots.txt协议还好处理，问题是很多公司压根不遵守协议也不公布自己的爬虫名称，疯狂抓爬网站获取内容。这种情况下想要拦截就需要想一些对策了，比如对于高频抓爬的UA直接封禁，开启CloudFlare的真人验证等功能，防止各种爬虫绕过CloudFlare的AI爬虫防护。如何开启此功能：CloudFlare、控制台、转到对应网站、安全性、自动程序，开启AIScrapersandCrawlers即可。...PC版：https://www.cnbeta.com.tw/articles/soft/1436037.htm手机版：https://m.cnbeta.com.tw/view/1436037.htm

Google认为版权法不应适用于人工智能训练

Google认为版权法不应适用于人工智能训练据《卫报》报道，Google已向澳大利亚监管机构提交了一份案例，要求其可以做自己想做的事，也许出版商应该可以拒绝。，但这是出版商的责任，而不是Google的责任。《卫报》看到的Google提交的文件呼吁澳大利亚采用“版权制度，能够适当和公平地使用受版权保护的内容，以便能够在澳大利亚对人工智能模型进行广泛而多样化的数据训练，同时在他们不喜欢使用人工智能系统来训练他们的数据的情况下，支持实体的可行选择退出”。”据报道，这与Google之前向澳大利亚提出的论点类似，只是它添加了看似合理的退出选项。然而，要求出版商明确选择退出对其数据的任何人工智能培训意味着出版商必须知道他们的作品正在被抓取。那么，由于监管机构正在为所有人工智能提供商制定计划，这也意味着可能无法证明一家公司是否已经停止抓取数据。此外，理论上，人工智能公司可以延迟该过程，Google并未具体说明该系统如何运作。Google是总部位于美国的大型科技公司联盟之一，该联盟最近承诺为人工智能行业建立最佳实践。...PC版：https://www.cnbeta.com.tw/articles/soft/1376013.htm手机版：https://m.cnbeta.com.tw/view/1376013.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人