12ft Ladder

12ft.io 已被托管服务商 Vercel 封禁

12ft.io 已被托管服务商 Vercel 封禁由托马斯·米勒创建是一个允许绕过互联网付费墙的网站，它通过伪装成搜索引擎爬虫来绕过各种新闻网站的付费墙。但部分网站会屏蔽 12 英尺，例如彭博社、纽约时报等。上周五晚上，12 英尺网站托管服务商 Vercel 封禁了该网站。打开网站会显示 403 错误，并显示消息“此部署已被禁用；你的连接工作正常；Vercel 工作正常”。托马斯·米勒在推特发文称：“星期五晚上，我正在度假时，Vercel 封禁了我的网站，没有任何警告。”并表示：“更糟糕的是，他们关闭了我所有的项目并没收了我所有的域名。”

Archive.today

Archive.today 一个网页存档项目，与互联网档案库类似，推荐的原因是，可以越过新闻网站的付费墙，比如 WSJ 和彭博社的付费内容，粘贴链接到网页，即可阅读全文。它的原理是，使用备份服务的用户做了代理，获取了网站的缓存，并非是采用爬虫的方式，所以无需遵循 robots 协议。频道 @WidgetChannel #存档 #解锁 #web

谷歌今天宣布删除网页快照功能不再提供任何缓存查看

谷歌今天宣布删除网页快照功能不再提供任何缓存查看谷歌今天宣布删除所有搜索结果中的网页快照 / 缓存功能，从今天起用户无法在搜索结果里点击缓存来查看网页被谷歌爬虫索引时生成的网页快照。谷歌称现在网络技术的发展，很多网站已经可以提供很好的可靠性，因此以前为了防止网站打不开而进行的缓存已经没有必要。这是一个让人非常遗憾的决定，因为互联网上有数以百亿计的网页，其中也有不少可能因为各种原因无法打开，用户在必要的时候至少还可以通过缓存查看内容，而现在被删除后可能就再也没法查看了。可以替代谷歌缓存的是互联网档案馆的 Wayback Machine，不过由于规模有限，互联网档案馆无法及时缓存所有网页，所以实际效果与谷歌的缓存还是有很大差距的。来源，频道：@kejiqu 群组：@kejiquchat

Google搜索页面正式取消缓存链接不久后彻底移除页面缓存功能

Google搜索页面正式取消缓存链接不久后彻底移除页面缓存功能缓存被移除的时间大约在 1 月 25 日，从这张截图中可以看到，缓存链接完全不见了：但至少目前缓存操作符是有效的，也就是添加cache:domain.com参数搜索后，缓存就会继续工作。但Google表示，这一功能也将退役并停止工作。作为网站运营方可以继续保留 noarchive 标记，Google仍然会尊重它。苏利文补充说，他希望看到Google添加指向 Wayback Machine 的链接，这样用户就可以访问这些网页的存档版本，不少用户希望能在之前有缓存链接的地方，也就是在"关于本结果"中，添加指向 @internetarchive 的链接。这是一个非常好的资源。虽然缓存并不是调试搜索引擎优化问题的好帮手，但多年来它已成为许多搜索引擎优化人员和搜索者的事实核查工具，但Google决定是时候让它消失了，我们将不得不寻找替代品。Wayback Machine是目前查看特定URL旧版本的绝佳方法，而且是免费的。 ... PC版：手机版：

研究称48%热门新闻网站屏蔽OpenAI爬虫

研究称48%热门新闻网站屏蔽OpenAI爬虫由于缺乏明确的监管框架来管理生成式人工智能对受版权保护的材料的使用，许多大型出版商自行解决问题，将人工智能公司告上法庭，更新服务条款，阻止爬虫或达成交易以保护优质内容，数据和收入。该研究将媒体分为三类：传统印刷出版物、电视和广播电台以及数字媒体。到 2023 年底，超过二分之一 (57%) 的传统印刷出版物网站（例如《纽约时报》）将屏蔽 OpenAI 的爬虫程序，而电视和广播公司的这一比例为 48%，数字媒体的比例为 31%。同样，32% 的印刷媒体屏蔽了 Google 的抓取工具，而 19% 的广播公司和 17% 的数字媒体也采取了同样的做法。Gartner 副总裁、杰出分析师安德鲁·弗兰克 (Andrew Frank) 表示：路透社的研究强调了生成式人工智能面临的一个根本挑战：它依赖于真实的人生成的真实内容，而这些人将其视为对其生计的威胁。与此同时，康奈尔大学最近的一项研究发现，当新的人工智能模型根据先前模型而不是人类输入的数据进行训练时，它们往往会模型崩溃或退化，导致生成的输出中错误和错误信息增加。“这表明大型语言模型开发人员需要找到方法来补偿那些创建或报告真实内容的人，这不仅是为了社会，也是为了他们自己的商业利益。”弗兰克说。部署网站爬虫的原因有很多。像Google的 Googlebot 这样的爬虫会在这家科技巨头的搜索结果中索引出版商网站。与此同时，OpenAI 的爬虫 GPTBot 通过互联网收集数据来训练其大型语言模型，例如 ChatGPT。这使得人工智能工具能够生成准确的同步数据新闻出版商尤其具有独特的优势来提供这种能力：GoogleAI的权重比优质出版商的内容高出5 到 100倍。人工智能驱动的解决方案正在成为传统搜索引擎的替代品。根据这项研究，与南半球的新闻媒体相比，北半球的新闻媒体更倾向于阻止人工智能爬虫。在美国，79% 的顶级在线新闻网站屏蔽了 OpenAI，而在墨西哥和波兰，只有 20% 的网站这样做了。与此同时，德国 60% 的新闻网站屏蔽了Google的爬虫，而波兰和西班牙则有 7% 的新闻网站屏蔽了Google的爬虫。几乎所有屏蔽 Google AI 的网站也屏蔽了 OpenAI（97%）。尽管该研究没有对这一趋势提供明确的解释，但它表明 OpenAI 在 Google 之前发布其爬虫程序可能对此有所贡献。与此同时，在大多数国家/地区，一些出版商在这两套爬虫程序发布后立即对其进行了屏蔽。OpenAI 于去年 8 月初推出了人工智能爬虫，Google也于 9 月紧随其后。根据这项研究，一旦做出屏蔽决定，没有任何网站会改变立场，解除对 OpenAI 或 Google AI 爬虫的屏蔽。 ... PC版：手机版：

EasySpider

EasySpider 下载地址丨开源地址一个可视化爬虫软件，可以使用图形化界面，无代码可视化的设计执行爬虫任务。只需要在网页上选择自己想要爬的内容并根据提示框操作即可完成爬虫设计和执行。考虑到此类工具的使用门槛，开发者提供了详细的视频教程和示例。频道 @WidgetChannel 投稿 @WidgetPlusBot #爬虫 #Win #Linux #macOS #开源

相关推荐