小红书禁止所有搜索引擎抓取其内容只能通过站内手动

小红书禁止所有搜索引擎抓取其内容只能通过站内手动搜索目前并不清楚小红书为什么禁止搜索引擎抓取内容，从SEO角度来说，允许搜索引擎抓取有助于给小红书带来更多流量，毕竟现在百度都索引了7亿多个网页。而且小红书是去年4月修改的，所以估计也不是因为防止被抓取内容训练AI吧？但小红书目前的内容库拿去训练AI确实很有价值，毕竟巨量文字和图片内容。不过robots.txt文件只是君子协定，属于防君子不妨小人的那种，除了会导致用户无法从搜索引擎直接查询小红书内容外，其实帮助也不大，毕竟其他非搜索引擎的爬虫也会继续抓取内容，小红书肯定也做了反爬措施了。现在国内的网站禁止搜索引擎抓取已经是个很常见的事情，或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量，更有甚者甚至别说搜索引擎了，就连正常的用户访问也会被拦截，必须注册账号登录后才能继续访问，这显然不是一个好事情。附小红书2023年4月2日的robots.txt信息：下面是小红书最新的robots.txt信息：...PC版：https://www.cnbeta.com.tw/articles/soft/1425509.htm手机版：https://m.cnbeta.com.tw/view/1425509.htm

在Telegram中查看

相关推荐

Twitter (X) 现在屏蔽 Bing 搜索引擎

Twitter(X)现在屏蔽Bing搜索引擎马斯克的Twitter(现在改名X)现在阻止必应搜索引擎，具体来说是阻止Bingbot爬取和访问Twitter[.]com平台上发布的内容。Twitter特别在其robots.txt文件中添加了一项指令，以禁止Bingbot爬取其平台上的内容。事实上，现在在Bing搜索引擎上使用“”命令仅显示104,000个TwitterURL。但对于Google搜索引擎，使用该命令会显示4.22亿个URL。早在7月份，Twitter就曾封锁过Google，导致Twitter在Google搜索中的可见度大幅下降。几天后，Twitter撤销了这一更改。——

Google呼吁更新"robots.txt"以适应新兴AI场景

Google呼吁更新"robots.txt"以适应新兴AI场景Google副总裁在博客中表示，随着新技术的出现，网络社区有必要发展支持网络未来发展的标准和协议。Robots.txt，一个于近30年前由社区主导的创建的网络标准，已被证明是网络出版商控制搜索引擎抓取其内容的一种简单透明的方式。（Robots.txt是一个文本文件，用于控制搜索引擎爬虫在网站上的抓取行为。其本身是非强制性的，不具备法律效应。）他们认为现在应当为网络和人工智能社区探索其他机器可读方法，以便网络发布者选择和控制新兴人工智能和研究用例，并将为此启动。消息来源：投稿：@ZaiHuaBot频道：@TestFlightCN

知乎已经完全禁止谷歌和必应搜索抓取内容看起来真怕内容被训练AI？

知乎已经完全禁止谷歌和必应搜索抓取内容看起来真怕内容被训练AI？知乎robots.txt文件已经在4~5月某个时候修改(具体时间可能是5月22日，与知乎强制登录时间近似)，此次修改知乎仅允许百度搜索和搜狗(搜狗是新增的，之前禁止搜狗抓取内容)抓取其内容，不再允许其他搜索引擎内容。知乎在几年前曾与百度达成合作因此在百度搜索中知乎的页面权重非常高可以获得更多点击量，现在只允许百度和搜狗而禁止其他一切搜索引擎，不知道知乎是否已经与百度达成了某些方面的协议。目前的这种状况是用户在知乎发布的任何新内容，都不会被谷歌和必应收录了，也就是知乎所有新内容在谷歌和必应上都无法再查到。对于大型内容网站来说趁着AI热潮卖数据确实是个比较不错的变现方式，但禁止抓取也意味着开放的互联网正在逐渐走向封闭。未来可能会有更多网站禁止搜索引擎或其他爬虫抓取内容甚至也同样强制要求登录，对互联网用户来说这肯定不是一个好消息。频道：@kejiqu群组：@kejiquchat

知乎已经完全禁止谷歌和必应搜索抓取内容

知乎已经完全禁止谷歌和必应搜索抓取内容27日消息，据网友反馈，知乎robots.txt文件已经在4~5月某个时候修改(具体时间可能是5月22日，与知乎强制登录时间近似)，此次修改知乎仅允许百度搜索和搜狗(搜狗是新增的，之前禁止搜狗抓取内容)抓取其内容，不再允许其他搜索引擎内容。目前的这种状况是用户在知乎发布的任何新内容，都不会被谷歌和必应收录了，也就是知乎所有新内容在谷歌和必应上都无法再查到。无论是强制登录还是禁止搜索引擎抓取内容，这些操作看起来都非常像是知乎为了避免自己的内容被抓取而拿去训练人工智能。——（摘抄部分）

多家AI 公司绕过网络标准抓取出版商网站内容

多家AI公司绕过网络标准抓取出版商网站内容据TollBit公司透露，多家AI公司正在绕过"robots.txt"协议，抓取网页内容用于生成AI系统。AI公司Perplexity被指未经许可使用福布斯Forbes的内容。具TollBit透露，这不是个例，多家AI公司也在这里做。这种行为可能对新闻行业造成经济损失，因为新闻出版者无法从中获利。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

《走进搜索引擎(第2版)》

名称：《走进搜索引擎(第2版)》描述：《走进搜索引擎(第2版)》由搜索引擎开发研究领域三位年轻的博士生精心编写，作者们希望将自己对搜索引擎的理解和实际应用相结合，让未接触过搜索引擎原理和方法的读者也能轻松读懂该书的大部分内容。链接：https://pan.quark.cn/s/abb70f2e1d08大小：N标签：#电子书#走进搜索引擎#quark频道：@yunpanshare群组：@yunpangroup

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人