用 node 写一个爬虫,超简单! #抽屉IT

None

相关推荐

封面图片

让我们实现一个简单的Vuex吧!- 起步 #抽屉IT

封面图片

Word 超简单制作论文封面方法,用表格就够了 #抽屉IT

封面图片

是一个网络爬虫,为 AI 模型训练提供数据收集 | #爬虫

封面图片

SKSQL 是一个用 Typescript 编写的用于 web 和 node.js 的 SQL 数据库。

SKSQL 是一个用 Typescript 编写的用于 web 和 node.js 的 SQL 数据库。 它用作客户端上的存储,共享数组缓冲区。允许主网页和网络工作者之间的快速通信。 它可以作为 SQL 引擎单独使用,也可以与允许持久性和复制到其他连接客户端的服务器一起使用。 受 T-SQL 启发的语法,支持函数和过程。在 SQL 语句和过程中执行 javascript 函数。 | #数据库

封面图片

:用200行Rust代码写一个向量搜索数据库

:用200行Rust代码写一个向量搜索数据库 由于人工智能/机器学习的快速发展,向量数据库随处可见。虽然它们可以支持复杂的人工智能/机器学习应用,但向量搜索本身在概念上并不那么困难。 这篇文章描述了Vector数据库的工作原理,并用不到 200 行 Rust 代码构建一个简单的 Vector Search 库。所有代码都可以在这个 Github repo中找到。 在这里使用的方法基于流行的库annoy中使用的称为“局部敏感散列”的一系列算法。本文的目的不是介绍一种新奇的算法/库,而是描述矢量搜索如何使用真实的代码片段进行工作。

封面图片

做了一个 爬虫(Selenium) GPTs 助手(1.0 版本)

做了一个 爬虫(Selenium) GPTs 助手(1.0 版本) 有时候科研人需要爬取一些网站的数据,但可能没有花太多时间系统深入学习过爬虫技术(处于一种似懂非懂的状态),这个时候如果你直接问 GPT-4,他其实很难很快给到你一个满意的回复。 首先 GPT-4 不一定会主动用 selenium 框架,面对一些反爬又很烦;其次,就算你让他使用,中间也需要大量的沟通防止 GPT-4 不要跑题(例如改着改着就不用 selenium 框架了);再者,也有人可能并不知道如何解决 ChromeDriver 的版本匹配问题,而 GPT-4 似乎很难清晰地提出这个问题的解决方案。所以我干脆就写好了 Documents 和 Prompts 方便你直接跳过很多和 GPT-4 不必要的沟通……从而迅速根据你的需求定制爬虫代码。再加上现在 GPT-4 这上下文长度起来后,不会超出限制就很好。 我把她命名为 Cyber Scraper: Seraphina。在这里可以联系她: 使用的方法大致就是只要你会审查元素,然后把它们 copy 给 Seraphina,让她清楚地知道你的目标元素是啥就行。如果她没明白的话你还可以保存一下当前页面 html 文件(mac 是 cmd shift s)然后上传上去,配合着你 copy 的 element 代码,这样大致上没问题了。相比之下,直接问 GPT-4 需要花费更多的时间达成共识。 她也是我制作的另一个 GPTs:「Carpe Diem 教授」的朋友: 那么 Seraphina 和 Carpe Diem 教授是如何认识的呢?让我们一起看看 Carpe Diem 教授是怎么说的吧

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人