纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容
纽约时报、CNN和澳大利亚广播公司阻止OpenAI爬虫访问其内容TheVerge最先报道了《纽约时报》在其网站上屏蔽了GPTBot。《卫报》随后发现,其他主要新闻网站,包括CNN、路透社、《芝加哥论坛报》、澳大利亚广播公司(ABC)和澳大利亚社区媒体(ACM)品牌,如《堪培拉时报》和《纽卡斯尔先驱报》似乎也倾向于禁止使用网络爬虫。所谓的大型语言模型(如ChatGPT)需要大量信息来训练系统,使其能够以类似人类语言模式的方式回答用户的询问。但是,这些模型背后的公司往往对其数据集中是否存在受版权保护的资料讳莫如深。在出版商的robots.txt文件中可以看到对GPTBot的封杀,这些文件告诉搜索引擎和其他实体的爬虫可以访问哪些页面。"允许GPTBot访问您的网站可以帮助人工智能模型变得更加准确,并提高它们的总体能力和安全性,"OpenAI在一篇博文中说,博文中包含了如何禁止爬虫的说明。所有接受检查的媒体都在八月份添加了该拦截功能。一些媒体还禁止使用CCBot,它是一个名为"CommonCrawl"的开放式网络数据存储库的网络爬虫,也被用于人工智能项目。美国有线电视新闻网(CNN)证实,该公司最近在旗下所有刊物中屏蔽了GPTBot,但并未就该品牌是否计划对其内容在人工智能系统中的使用采取进一步行动发表评论。路透社发言人表示,路透社会定期审查其robots.txt和网站条款。她说:"因为知识产权是我们业务的命脉,所以我们必须保护我们内容的版权。"《纽约时报》的一位发言人表示,该公司最近更新了服务条款,更加明确地禁止"为人工智能培训和开发目的......剪切我们的内容"。自8月3日起,其网站规则明确禁止未经同意将出版商的内容用于"开发任何软件程序,包括但不限于训练机器学习或人工智能(AI)系统"。全球新闻机构都面临着是否将人工智能作为新闻采集的一部分,以及如何处理其内容可能被开发人工智能系统的公司吸入训练池的问题。人工智能是新闻业的威胁,还是技术会自我毁灭?8月初,法新社和盖蒂图片社等媒体签署了一封公开信,呼吁对人工智能进行监管,包括"用于创建人工智能模型的所有训练集的构成"的透明度,以及使用受版权保护材料的许可。Google建议,除非出版商明确表示不同意,否则人工智能系统应该可以采集出版商的作品。在向澳大利亚政府提交的一份人工智能监管框架审查报告中,该公司主张"版权制度应允许适当、公平地使用受版权保护的内容,以便在澳大利亚利用广泛多样的数据训练人工智能模型,同时支持可行的退出方式"。OriginalityAI是一家检查是否存在人工智能内容的公司,该公司本周分享的研究发现,包括亚马逊和Shutterstock在内的主要网站也屏蔽了GPTBot。澳大利亚广播公司(ABC)、澳大利亚社区媒体(AustralianCommunityMedia)、《芝加哥论坛报》(ChicagoTribune)、OpenAI和CommonCrawl在截止日期前没有做出回应。...PC版:https://www.cnbeta.com.tw/articles/soft/1379533.htm手机版:https://m.cnbeta.com.tw/view/1379533.htm