知情人士向《科创板日报》记者透露,腾讯微信内容其实并未向谷歌、必应开放,而是系统存在小漏洞,其他搜索引擎可通过爬虫抓取到内容,后

知情人士向《科创板日报》记者透露,腾讯微信内容其实并未向谷歌、必应开放,而是系统存在小漏洞,其他搜索引擎可通过爬虫抓取到内容,后续此系统漏洞或将被修复。 编者按:截至发稿时,昨晚曾一度清空的 https://mp.weixin.qq.com/robots.txt 已恢复其原本内容,即禁止搜索引擎抓取。 (财联社)

相关推荐

封面图片

腾讯微信内容将向国外搜索引擎开放 ?知情人士:其实是系统漏洞

腾讯微信内容将向国外搜索引擎开放 ?知情人士:其实是系统漏洞 《科创板日报》22日讯,有媒体报道称,腾讯微信开始使其内容可在谷歌、必应等国外搜索引擎上搜索。 对此,知情人士向《科创板日报》记者透露,腾讯内容其实并未向谷歌、必应开放,而是系统存在小漏洞,其他搜索引擎可通过爬虫抓取到内容,后续此系统漏洞或将被修复。

封面图片

小红书禁止所有搜索引擎抓取其内容 只能通过站内手动

小红书禁止所有搜索引擎抓取其内容 只能通过站内手动搜索 目前并不清楚小红书为什么禁止搜索引擎抓取内容,从 SEO 角度来说,允许搜索引擎抓取有助于给小红书带来更多流量,毕竟现在百度都索引了 7 亿多个网页。而且小红书是去年 4 月修改的,所以估计也不是因为防止被抓取内容训练 AI 吧?但小红书目前的内容库拿去训练 AI 确实很有价值,毕竟巨量文字和图片内容。不过 robots.txt 文件只是君子协定,属于防君子不妨小人的那种,除了会导致用户无法从搜索引擎直接查询小红书内容外,其实帮助也不大,毕竟其他非搜索引擎的爬虫也会继续抓取内容,小红书肯定也做了反爬措施了。现在国内的网站禁止搜索引擎抓取已经是个很常见的事情,或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量,更有甚者甚至别说搜索引擎了,就连正常的用户访问也会被拦截,必须注册账号登录后才能继续访问,这显然不是一个好事情。附小红书 2023 年 4 月 2 日的 robots.txt 信息:下面是小红书最新的 robots.txt 信息: ... PC版: 手机版:

封面图片

知乎已经完全禁止谷歌和必应搜索抓取内容 看起来真怕内容被训练AI?

知乎已经完全禁止谷歌和必应搜索抓取内容 看起来真怕内容被训练AI? 知乎 robots.txt 文件已经在 4~5 月某个时候修改(具体时间可能是 5 月 22 日,与知乎强制登录时间近似),此次修改知乎仅允许百度搜索和搜狗(搜狗是新增的,之前禁止搜狗抓取内容)抓取其内容,不再允许其他搜索引擎内容。 知乎在几年前曾与百度达成合作因此在百度搜索中知乎的页面权重非常高可以获得更多点击量,现在只允许百度和搜狗而禁止其他一切搜索引擎,不知道知乎是否已经与百度达成了某些方面的协议。目前的这种状况是用户在知乎发布的任何新内容,都不会被谷歌和必应收录了,也就是知乎所有新内容在谷歌和必应上都无法再查到。 对于大型内容网站来说趁着 AI 热潮卖数据确实是个比较不错的变现方式,但禁止抓取也意味着开放的互联网正在逐渐走向封闭。未来可能会有更多网站禁止搜索引擎或其他爬虫抓取内容甚至也同样强制要求登录,对互联网用户来说这肯定不是一个好消息。 频道:@kejiqu 群组:@kejiquchat

封面图片

Twitter (X) 现在屏蔽 Bing 搜索引擎

Twitter (X) 现在屏蔽 Bing 搜索引擎 马斯克的 Twitter (现在改名X) 现在阻止必应搜索引擎,具体来说是阻止 Bingbot 爬取和访问 Twitter[.]com 平台上发布的内容。Twitter 特别在其 robots.txt 文件中添加了一项指令,以禁止 Bingbot 爬取其平台上的内容。 事实上,现在在 Bing 搜索引擎上使用“”命令仅显示 104,000 个 Twitter URL。但对于 Google 搜索引擎,使用该命令会显示 4.22 亿个 URL。 早在 7 月份,Twitter 就曾封锁过 Google,导致 Twitter 在 Google 搜索中的可见度大幅下降。几天后,Twitter 撤销了这一更改。

封面图片

终结内容农场内容农场是什么?就是像腾讯,360等把一些内容抓取到他们的网站论坛,然后对于搜索引擎做了优化,你看到的都是爬取的文章

终结内容农场 内容农场是什么?就是像腾讯,360等把一些内容抓取到他们的网站论坛,然后对于搜索引擎做了优化,你搜索看到的都是爬取的文章。恶心的一批。这个插件可以标示内容农场链接,防止误入内容农场,并封锁内容农场的广告与恶意程序。#chrome #扩展 #插件 #去广告 链接:点击获取 频道 | 圈子 | 群聊 | 投稿

封面图片

知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI

知乎故意使用乱码干扰必应/谷歌等爬虫 看起来确实是阻止内容被抓取训练AI 这种猜测现在基本已经坐实,因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot,那么知乎就会返回乱码内容,如果不包含这些关键词则返回正常内容。蓝点网也进行了测试复现了这种情况,例如 [蓝点网 – 没有蜘蛛] 这个代理字符串可以显示正常内容,而 [蓝点网 – 没有蜘蛛 – spider] 就会显示乱码内容。值得注意的是蓝点网还测试了百度搜索的爬虫也就是 Baiduspider 也返回乱码内容,那这岂不是影响百度抓取吗?这个也可以通过技术手段解决,即服务器为百度爬虫提供了专门的索引通道类似白名单,可以随意抓取任何不受限的内容。这种方式还可以用来对抗某些恶意抓取者冒充百度爬虫来抓取内容,因此从网站角度来说也是个不错的防御方式。测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,不过大多数情况下也都是乱码的,因为 UA 匹配到了关键词 bot 所以返回乱码内容,这不太可能是知乎也允许 OpenAI 抓取内容。从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配,这些情况基本说明了知乎确实不希望自己的内容被抓取,对知乎来说现有的内容是个巨大的金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。测试1:正常浏览器UA可以返回正确内容测试2:测试 test-bing-bot 命中关键词 bot 返回乱码内容测试3:测试 test-google-spider 命中关键词 spider 返回乱码测试4:测试 蓝点网-没有蜘蛛 未命中关键词返回正常内容测试5:测试 蓝点网-没有蜘蛛-有个锤子的-spider 因为命中关键词返回乱码测试6:测试 蓝点网-没有蜘蛛-有个锤子的-bot因为命中关键词返回乱码测试7:GPTBot命中关键词但意外没有乱码,这种情况出现的概率极低,大部分还是乱码测试8:baiduspider因为命中关键词也乱码测试9:这是百度爬虫渲染的完整UA测试10:GPTBot大多数时候也是乱码的 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人