一个开源的文档内容高效检索 AI 工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。可选择

一个开源的文档内容高效检索 AI 工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。可选择多种语言模型,支持在本地离线部署运行,注重隐私安全。 使用命令行即可快速处理本地的文本和 PDF 文件。在任务完成后,它会在本地搭建一个 Web 搜索页面,让你能在界面上对直接查询文档。 Semantra 的设计目的是方便易用,可定制。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。主要作用是对存储在本地计算机上的文档(文本或 PDF 文件)进行操作,你可以选择处理单个或多个文档。 该项目对文档的处理有两种方式:「内嵌模型」和调用「OpenAI API」。默认是用的 MPNet 语言模型。 如果你电脑配置还过得去,或者想离线处理文档,可以优先选择下载大语言模型,这种方式可以最大程度保证你的隐私安全。 如果想用 OpenAI API,项目也提供了相对应的方案,不过所产生的 Token 消耗,你需要自行承担。 针对这两种方案,作者都在 GitHub 中给出了详细文档。 | #工具

相关推荐

封面图片

基于语义搜索和文本生成的领域知识问答

基于语义搜索和文本生成的领域知识问答 基于领域知识(如内部文档、合同、书籍等)回答问题具有挑战性,因为它需要处理大型文档。在这篇文章探索了一种先进的技术,以实现对大文本的高精度问答,将语义搜索和文本生成与 GPT-3、GPT-J 或 GPT-NeoX 等模型相结合。|

封面图片

:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的历史资料片

:用向量数据库基于RAG(检索增强生成)方式搭建一个中国历史问答应用,这个应用接受用户的询问,从历史语料库中检索相关的历史资料片段,利用大语言模型给出较为可靠的回答。 相比于直接询问大模型,这种方式具有回答准确率高,不容易产生大模型的“幻觉”问题等优点。 本项目实现了两种使用方式: “Milvus方案“在本地启动一个Milvus向量数据库的Docker服务,使用LlamaIndex框架和本地BAAI/bge-base-zh-v1.5Embedding模型实现RAG的业务逻辑。 “Zilliz Cloud Pipelines方案”使用云上的知识库检索服务Zilliz Cloud Pipelines,该服务包括了RAG流程的文档切片、向量化、向量检索等功能。 两种方案均使用OpenAI的GPT4作为大语言模型。

封面图片

PDFTriage:PDF分诊技术

PDFTriage:PDF分诊技术 该技术由斯坦福大学和Adobe 研究团队共同开发,主要解决了ChatGPT在处理长篇、结构复杂的文档(如PDF、网页、演示文稿等)时遇到理解不全或回答问题不准确的问题。 PDFTriage通过先了解文档的结构,然后精准地找到与用户问题相关的部分,最后用语言模型生成答案,从而解决了传统模型在处理长篇和复杂结构文档时的不足。 大型语言模型(LLM)在处理长篇、结构复杂的文档时面临以下几个主要问题: 1、上下文窗口限制:LLM通常有一个固定的上下文窗口大小,这意味着它一次只能处理有限数量的文本“令牌”(tokens)。对于长篇文档,这就需要进行预处理或分割,以便模型能够处理。 2、文档结构忽略:传统的LLM通常只处理纯文本,忽略了文档的结构信息(如页面、表格、标题等)。这在处理PDFs、网页或演示文稿等结构复杂的文档时会导致问题。 3、查询不准确:由于缺乏对文档结构的理解,当用户提出与文档结构有关的问题(例如,“表3中哪一年的收益最高?”)时,传统的LLM往往无法准确回答。 4、信息获取不全面:在处理结构复杂的文档时,仅仅依赖文本内容可能会导致信息获取不全面或不准确。 工作原理: PDFTriage技术旨在解决这一问题,它能根据文档的结构信息,准确地回答用户提出的各种问题。例如,用户可以提出“请总结第5-7页的内容”或“表3中哪一年的收益最高”等问题,PDFTriage能够准确地提供答案。 获取元数据:首先,该技术会生成文档的结构化元数据表达,包括文档各个部分(如段落、标题、表格等)的信息。 选择相关内容:当用户提出一个问题时,该技术会根据元数据选择与问题最相关的文档部分(如特定页面、表格等)。比如,如果问题是“第5-7页的内容是什么?”,它会直接定位到这几页的内容。 生成答案:最后,选定的文档部分和用户的问题会被LLM处理,以生成准确的答案。 实验评估: 研究者创建了一个包含约900个问题和90份文档的数据集进行评估。实验结果显示,PDFTriage技术在处理各种类型的文档时都表现出色,优于现有的方法。 用户反馈: 根据用户反馈,PDFTriage生成的答案在多页任务(如结构问题和表格推理)中排名更高,而在一般文本任务(如分类和文本问题)中排名较低。然而,在所有问题类别中,PDFTriage都优于页面检索和块检索方法。

封面图片

:一个开源的 AI 智能助手,专为软件开发的全生命周期而设计,涵盖设计、编码、测试、部署和运维等阶段。通过知识检索、代码检索,工

:一个开源的 AI 智能助手,专为软件开发的全生命周期而设计,涵盖设计、编码、测试、部署和运维等阶段。通过知识检索、代码检索,工具使用和沙箱执行,Codefuse-ChatBot不仅能回答你在开发过程中遇到的专业问题,还能通过对话界面协调多个独立分散的平台。 项目核心差异技术、功能点: 智能调度核心: 构建了体系链路完善的调度核心,支持多模式一键配置,简化操作流程。 代码整库分析: 实现了仓库级的代码深入理解,以及项目文件级的代码编写与生成,提升了开发效率。 文档分析增强: 融合了文档知识库与知识图谱,通过检索和推理增强,为文档分析提供了更深层次的支持。 垂类专属知识: 为DevOps领域定制的专属知识库,支持垂类知识库的自助一键构建,便捷实用。 垂类模型兼容: 针对DevOps领域的小型模型,保证了与DevOps相关平台的兼容性,促进了技术生态的整合。 依托于开源的 LLM 与 Embedding 模型,本项目可实现基于开源模型的离线私有部署。此外,本项目也支持 OpenAI API 的调用。

封面图片

Typecast,一个像文本文档一样工作的音频创作工具。

Typecast,一个像文本文档一样工作的音频创作工具。 人工智能配音演员和视频编辑软件。 输入你的脚本,然后从150多个虚拟语音表演者中选择你想要的,随时随地为你的内容配音。 #AI #tools

封面图片

GPT长文本批处理工具

GPT长文本批处理工具 可以将长文本分隔成小段,然后使用GPT进行处理,并将结果拼接起来以便下载。 使用该工具需要选择分隔方式(按行、按长度或按特殊字符),填写每次调用GPT Chat API的设置,包括系统提示词、用户提示词、最大Token数和模型。 在处理过程中,可以预览分段和估计的Token数量。处理完成后,文件将自动下载,可以进行验证并清除缓存。 | #工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人