在 arxiv.org 链接前面加上“talk2”,可直接针对论文内容进行问答(需要自备OpenAI key)| github
在arxiv.org链接前面加上“talk2”,可直接针对论文内容进行问答(需要自备OpenAIkey)Talk2Arxiv是专为学术论文PDF构建的开源RAG(检索增强生成)系统,由talk2arxiv服务器提供支持特征PDF解析:利用GROBID从PDF中高效提取文本。分块算法:用于最佳文本分块的定制算法。按逻辑部分(简介、摘要、作者等)进行分块,并且还利用递归细分分块(块为512个字符,然后是256个字符,然后是128个字符......)文本嵌入:使用Cohere的EmbedV3模型进行准确的文本嵌入。矢量数据库集成:使用Pinecone来存储和查询嵌入。这也可以缓存研究论文,因此论文只需要嵌入一次。上下文相关性:采用重新排名过程来根据用户输入选择最相关的内容。