涉嫌违规抓取网站数据 亚马逊AWS调查Perplexity AI

涉嫌违规抓取网站数据 亚马逊AWS调查Perplexity AI robots.txt协议作为一种网络标准,由网站管理员设置,旨在告知网络爬虫哪些页面可以被访问,哪些则禁止抓取。尽管遵守该协议是自愿的,但长期以来,各大搜索引擎和知名公司的爬虫程序普遍遵循这一标准。然而,近期有指控称,Perplexity AI的爬虫程序却选择了忽视。根据《Wired》杂志的报道,其调查团队发现了一台托管在AWS服务器上的虚拟机,该机器使用的IP地址为44.221.181.252,在过去三个月内多次访问并抓取了Condé Nast旗下资产的内容,包括《Wired》杂志本身。此外,《卫报》、《福布斯》和《纽约时报》等媒体也报告了类似情况,指出该IP地址多次访问其出版物内容。为验证Perplexity AI是否确实在抓取内容,《Wired》杂志将文章标题或简短描述输入Perplexity的聊天机器人进行测试。结果显示,聊天机器人返回的内容与原文措辞高度相似,且引用极少,进一步加剧了对其违规行为的质疑。面对指控,Perplexity AI方面表示已回应亚马逊的询问,并否认其爬虫程序故意绕过robots.txt协议。公司发言人Sara Platnick强调,PerplexityBot在AWS上运行时尊重robots.txt文件,并确认公司控制的服务不会违反AWS服务条款进行爬虫活动。然而,她也承认,在特定情况下,即用户输入特定URL时,PerplexityBot会忽略robots.txt协议。Perplexity AI首席执行官Aravind Srinivas则指出,公司确实使用了第三方网络爬虫程序,而Wired所识别的违规爬虫可能正是其中之一。他否认公司“无视机器人排除协议并就此撒谎”,但承认公司在数据处理和引用来源方面存在改进空间。值得注意的是,路透社最近的一份报告指出,Perplexity AI并非唯一一家绕过robots.txt文件收集内容以训练大型语言模型的人工智能公司。然而,亚马逊的调查目前似乎仅针对Perplexity AI展开。亚马逊发言人向《连线》杂志表示,AWS服务条款明确禁止客户使用其服务进行任何非法活动,且客户有责任遵守条款和所有适用法律。此次调查旨在确认Perplexity AI是否存在违规行为,并根据调查结果采取相应措施。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI主动公开自家爬虫,撇清窃取数据之嫌?OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称

OpenAI主动公开自家爬虫,撇清窃取数据之嫌?OpenAI的网络爬虫GPTBot可以自动从整个互联网上抓取数据。OpenAI称将使用这些数据将用于训练未来的AI模型。如果不希望GPTBot访问你的网站,可以将GPTBot添加到你网站的robots.txt文件中 #抽屉IT

封面图片

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。 GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。 User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) 禁止 GPTBot User-agent: GPTBot Disallow: / 自定义 GPTBot 访问 User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/ IP 出口范围 40.83.2.64/28

封面图片

知乎已经完全禁止谷歌和必应搜索抓取内容 看起来真怕内容被训练AI?

知乎已经完全禁止谷歌和必应搜索抓取内容 看起来真怕内容被训练AI? 知乎 robots.txt 文件已经在 4~5 月某个时候修改(具体时间可能是 5 月 22 日,与知乎强制登录时间近似),此次修改知乎仅允许百度搜索和搜狗(搜狗是新增的,之前禁止搜狗抓取内容)抓取其内容,不再允许其他搜索引擎内容。 知乎在几年前曾与百度达成合作因此在百度搜索中知乎的页面权重非常高可以获得更多点击量,现在只允许百度和搜狗而禁止其他一切搜索引擎,不知道知乎是否已经与百度达成了某些方面的协议。目前的这种状况是用户在知乎发布的任何新内容,都不会被谷歌和必应收录了,也就是知乎所有新内容在谷歌和必应上都无法再查到。 对于大型内容网站来说趁着 AI 热潮卖数据确实是个比较不错的变现方式,但禁止抓取也意味着开放的互联网正在逐渐走向封闭。未来可能会有更多网站禁止搜索引擎或其他爬虫抓取内容甚至也同样强制要求登录,对互联网用户来说这肯定不是一个好消息。 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型 OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,“使用 GPTBot 用户代理(user agent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。” 但是,这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。来源 ,, 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Reddit向AI搜索爬虫发出侵权警告

Reddit向AI搜索爬虫发出侵权警告 该公司表示,它还将继续阻止和限制未与该公司事先达成协议的爬虫和其他机器人。该公司表示,这些变化不会影响"善意的行为者",如互联网档案馆和研究人员。Reddit 的这一通知是在多方报道 Perplexity 和其他人工智能公司经常绕过robots.txt协议,该协议被出版商用来告诉网络爬虫他们不希望其内容被访问。Perplexity 的首席执行官最近在一次采访时说该协议"不是一个法律框架"。Reddit 发言人在一份声明中表示,这并不是针对某家公司。该发言人说:"这次更新并不是针对某个实体,而是为了保护 Reddit,同时保持互联网的开放性。在接下来的几周里,我们将更新 robots.txt 说明,尽可能明确:如果你使用自动代理访问 Reddit,无论你是哪类公司,你都需要遵守我们的条款和政策,并与我们沟通。我们相信开放的互联网,但我们不相信对公共内容的滥用。"这已经不是该公司第一次在数据访问方面采取强硬立场了。该公司在开始对其 API 收费时,就提到了人工智能公司使用其平台的情况。 API收费时,该公司提到了人工智能公司使用其平台的情况。此后,该公司与一些人工智能公司达成了许可协议,其中包括 Google和 OpenAI.这些协议允许人工智能公司在 Reddit 的档案中训练自己的模型,这也是新近上市的 Reddit 的重要收入来源。这句话中的"和我们谈谈"部分很可能是在不露声色地提醒人们,Reddit 已经不再是一家免费提供内容的公司了。 ... PC版: 手机版:

封面图片

小红书禁止所有搜索引擎抓取其内容 只能通过站内手动

小红书禁止所有搜索引擎抓取其内容 只能通过站内手动搜索 目前并不清楚小红书为什么禁止搜索引擎抓取内容,从 SEO 角度来说,允许搜索引擎抓取有助于给小红书带来更多流量,毕竟现在百度都索引了 7 亿多个网页。而且小红书是去年 4 月修改的,所以估计也不是因为防止被抓取内容训练 AI 吧?但小红书目前的内容库拿去训练 AI 确实很有价值,毕竟巨量文字和图片内容。不过 robots.txt 文件只是君子协定,属于防君子不妨小人的那种,除了会导致用户无法从搜索引擎直接查询小红书内容外,其实帮助也不大,毕竟其他非搜索引擎的爬虫也会继续抓取内容,小红书肯定也做了反爬措施了。现在国内的网站禁止搜索引擎抓取已经是个很常见的事情,或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量,更有甚者甚至别说搜索引擎了,就连正常的用户访问也会被拦截,必须注册账号登录后才能继续访问,这显然不是一个好事情。附小红书 2023 年 4 月 2 日的 robots.txt 信息:下面是小红书最新的 robots.txt 信息: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人