Reddit 更新 robots.txt 文件加强爬虫限制

Reddit 更新 robots.txt 文件加强爬虫限制社交平台 Reddit 周二宣布，在接下来的几周内，将更新其机器人排除协议 (robots.txt 文件)，该协议提供有关该平台如何允许和不允许第三方抓取 Reddit 内容的高级说明。除了更新 robots.txt 文件外，Reddit 还将继续对未知的机器人和抓取工具访问该平台网站进行速率限制和/或阻止。此更新不应影响绝大多数使用和享受 Reddit 的用户。善意的行为者，如研究人员和互联网档案馆等组织，仍将能够出于非商业目的访问 Reddit 内容。

在Telegram中查看

相关推荐

Reddit向AI搜索爬虫发出侵权警告

Reddit向AI搜索爬虫发出侵权警告该公司表示，它还将继续阻止和限制未与该公司事先达成协议的爬虫和其他机器人。该公司表示，这些变化不会影响"善意的行为者"，如互联网档案馆和研究人员。Reddit 的这一通知是在多方报道 Perplexity 和其他人工智能公司经常绕过robots.txt协议，该协议被出版商用来告诉网络爬虫他们不希望其内容被访问。Perplexity 的首席执行官最近在一次采访时说该协议"不是一个法律框架"。Reddit 发言人在一份声明中表示，这并不是针对某家公司。该发言人说："这次更新并不是针对某个实体，而是为了保护 Reddit，同时保持互联网的开放性。在接下来的几周里，我们将更新 robots.txt 说明，尽可能明确：如果你使用自动代理访问 Reddit，无论你是哪类公司，你都需要遵守我们的条款和政策，并与我们沟通。我们相信开放的互联网，但我们不相信对公共内容的滥用。"这已经不是该公司第一次在数据访问方面采取强硬立场了。该公司在开始对其 API 收费时，就提到了人工智能公司使用其平台的情况。 API收费时，该公司提到了人工智能公司使用其平台的情况。此后，该公司与一些人工智能公司达成了许可协议，其中包括 Google和 OpenAI.这些协议允许人工智能公司在 Reddit 的档案中训练自己的模型，这也是新近上市的 Reddit 的重要收入来源。这句话中的"和我们谈谈"部分很可能是在不露声色地提醒人们，Reddit 已经不再是一家免费提供内容的公司了。 ... PC版：手机版：

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

OpenAI主动公开自家爬虫，撇清窃取数据之嫌？OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称将使用这些数据将用于训练未来的AI模型。如果不希望GPTBot访问你的网站，可以将GPTBot添加到你网站的robots.txt文件中 #抽屉IT

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据，避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示，网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问，或者通过屏蔽其 IP 地址，来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫，可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

Reddit 与谷歌达成人工智能内容授权协议

Reddit 与谷歌达成人工智能内容授权协议三名知情人士表示，社交媒体平台 Reddit 已与谷歌达成协议，将其内容可用于训练这家搜索引擎巨头的人工智能模型。其中一位消息人士称，协议价值约为每年6000万美元。彭博社此前报道了该交易，但未透露买家是谁。此外，两位消息人士称，Reddit 可能最快本周四提交 IPO 文件。

涉嫌违规抓取网站数据亚马逊AWS调查Perplexity AI

涉嫌违规抓取网站数据亚马逊AWS调查Perplexity AI robots.txt协议作为一种网络标准，由网站管理员设置，旨在告知网络爬虫哪些页面可以被访问，哪些则禁止抓取。尽管遵守该协议是自愿的，但长期以来，各大搜索引擎和知名公司的爬虫程序普遍遵循这一标准。然而，近期有指控称，Perplexity AI的爬虫程序却选择了忽视。根据《Wired》杂志的报道，其调查团队发现了一台托管在AWS服务器上的虚拟机，该机器使用的IP地址为44.221.181.252，在过去三个月内多次访问并抓取了Condé Nast旗下资产的内容，包括《Wired》杂志本身。此外，《卫报》、《福布斯》和《纽约时报》等媒体也报告了类似情况，指出该IP地址多次访问其出版物内容。为验证Perplexity AI是否确实在抓取内容，《Wired》杂志将文章标题或简短描述输入Perplexity的聊天机器人进行测试。结果显示，聊天机器人返回的内容与原文措辞高度相似，且引用极少，进一步加剧了对其违规行为的质疑。面对指控，Perplexity AI方面表示已回应亚马逊的询问，并否认其爬虫程序故意绕过robots.txt协议。公司发言人Sara Platnick强调，PerplexityBot在AWS上运行时尊重robots.txt文件，并确认公司控制的服务不会违反AWS服务条款进行爬虫活动。然而，她也承认，在特定情况下，即用户输入特定URL时，PerplexityBot会忽略robots.txt协议。Perplexity AI首席执行官Aravind Srinivas则指出，公司确实使用了第三方网络爬虫程序，而Wired所识别的违规爬虫可能正是其中之一。他否认公司“无视机器人排除协议并就此撒谎”，但承认公司在数据处理和引用来源方面存在改进空间。值得注意的是，路透社最近的一份报告指出，Perplexity AI并非唯一一家绕过robots.txt文件收集内容以训练大型语言模型的人工智能公司。然而，亚马逊的调查目前似乎仅针对Perplexity AI展开。亚马逊发言人向《连线》杂志表示，AWS服务条款明确禁止客户使用其服务进行任何非法活动，且客户有责任遵守条款和所有适用法律。此次调查旨在确认Perplexity AI是否存在违规行为，并根据调查结果采取相应措施。 ... PC版：手机版：

Reddit 在 IPO 前签署人工智能内容许可协议

Reddit 在 IPO 前签署人工智能内容许可协议据知情人士透露，Reddit Inc. 已与一家大型人工智能公司达成了一项丰厚的协议，允许其使用社交媒体平台的内容来训练其模型。该公司即将启动期待已久的首次公开募股。知情人士称，这家总部位于旧金山的公司在 IPO 中告诉潜在投资者，该公司已于今年早些时候签署了该协议，该交易的年化价值约为6000万美元。其中一位人士说， Reddit 与一家未具名的大型人工智能公司签订的协议可能成为未来类似性质合同的范本。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人