OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示，“使用 GPTBot 用户代理（user agent）抓取的网页可能会被用于改进未来的模型，并且会过滤掉那些需要付费访问、已知收集个人身份信息（PII）、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源，“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高它们的通用能力和安全性。” 但是，这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。来源，，频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

在Telegram中查看

相关推荐

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称将使用这些数据将用于训练未来的AI模型。如果不希望GPTBot访问你的网站，可以将GPTBot添加到你网站的robots.txt文件中 #抽屉IT

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到 2023 年底，超过二分之一 (57%) 的传统印刷出版物网站（例如《纽约时报》）将屏蔽 OpenAI 的爬虫程序，而电视和广播公司的这一比例为 48%，数字媒体的比例为 31%。同样，32% 的印刷媒体屏蔽了 Google 的抓取工具，而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型，例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79% 的顶级在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，只有 20% 的网站这样做了。与此同时，德国 60% 的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有 7% 的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫，Google也于 9 月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对 OpenAI 或 Google AI 爬虫的屏蔽。 ... PC版：手机版：

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI 这种猜测现在基本已经坐实，因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot，那么知乎就会返回乱码内容，如果不包含这些关键词则返回正常内容。蓝点网也进行了测试复现了这种情况，例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容，而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容。值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容，那这岂不是影响百度抓取吗？这个也可以通过技术手段解决，即服务器为百度爬虫提供了专门的索引通道类似白名单，可以随意抓取任何不受限的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容，因此从网站角度来说也是个不错的防御方式。测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码，不过大多数情况下也都是乱码的，因为 UA 匹配到了关键词 bot 所以返回乱码内容，这不太可能是知乎也允许 OpenAI 抓取内容。从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配，这些情况基本说明了知乎确实不希望自己的内容被抓取，对知乎来说现有的内容是个巨大的金矿，如果人工智能公司不花钱来买的话那肯定不能提供这些数据，所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。测试1：正常浏览器UA可以返回正确内容测试2：测试 test-bing-bot 命中关键词 bot 返回乱码内容测试3：测试 test-google-spider 命中关键词 spider 返回乱码测试4：测试蓝点网-没有蜘蛛未命中关键词返回正常内容测试5：测试蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码测试6：测试蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码测试7：GPTBot命中关键词但意外没有乱码，这种情况出现的概率极低，大部分还是乱码测试8：baiduspider因为命中关键词也乱码测试9：这是百度爬虫渲染的完整UA测试10：GPTBot大多数时候也是乱码的 ... PC版：手机版：

微软、OpenAI等公司已使用合成数据来训练AI模型

微软、OpenAI等公司已使用合成数据来训练AI模型金十数据7月20日讯，人工智能初创公司Cohere首席执行官AidenGomez表示，由于Reddit、推特等公司的数据采集要价太高，微软、OpenAI和Cohere等公司，已使用合成数据来训练AI模型。Gomez表示，合成数据可以适用于很多训练场景，只是目前尚未全面推广。来源：https://flash.jin10.com/detail/20230720104640322100 via 匿名标签: #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

《纽约时报》封杀 OpenAI 的网络爬虫

《纽约时报》封杀 OpenAI 的网络爬虫《纽约时报》屏蔽了 OpenAI 的网络爬虫，这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。如果你查看《纽约时报》的 robots.txt 页面，就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine，纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道，《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司，Books3 是一个用于训练 ChatGPT 的数据集，可能包含数千部受版权保护的作品，还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人

相关推荐

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

研究称48%热门新闻网站屏蔽OpenAI爬虫

知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI

微软、OpenAI等公司已使用合成数据来训练AI模型

《纽约时报》封杀 OpenAI 的网络爬虫

知乎故意使用乱码干扰必应/谷歌等爬虫看起来确实是阻止内容被抓取训练AI