elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG

elvis写了一篇非常详细的文章来介绍 RAG 生态的所有部分,还会添加清晰易懂的参考文献列表以及技术性编程教程帮助提高 RAG 系统的性能。 主要内容来自《大语言模型的检索增强生成:一项调查》这篇论文,我简要总结了一下文章每个部分的内容,感兴趣可以去看原文: 检索增强生成(Retrieval Augmented Generation, RAG)技术,旨在通过结合外部知识源,如数据库,来提升大语言模型(LLMs)的能力。它主要用于解决领域知识的缺失、事实性问题和生成错误。RAG特别适用于那些需要最新知识、又不需针对每个特定任务重复训练LLM的应用场景,比如对话代理和知识密集型任务。 RAG如何工作 RAG通过接收输入的提示信息,从资源如维基百科中检索相关文档,再将这些文档作为上下文来生成回答。这种方法使LLMs能够访问最新的信息,并生成更准确、更可控、更相关的内容。它能及时适应不断变化的信息,这对于LLM来说至关重要,因为它们的知识库本身是静态的。 RAG系统的发展 RAG系统已经从初级阶段(Naive RAG)发展到高级阶段(Advanced RAG)和模块化阶段(Modular RAG),以解决性能、成本和效率的限制。高级RAG通过优化不同阶段,如预检索、检索和检索后处理,来提高检索质量。模块化RAG则通过调整不同的功能模块来适应特定问题的背景,提供了更大的灵活性。 RAG系统的关键组成 检索:包括提升语义表示、对齐查询与文档,以及调整检索器输出以符合LLM的偏好。 生成:涉及将检索到的信息转化为连贯的文本,并在检索后对LLM进行微调。 增强:在生成任务中融合检索到的段落的上下文,包括不同阶段和增强数据源。 RAG与模型微调 RAG适合用于集成新知识,而模型微调则有助于提升模型的性能和效率。这两种方法可以互补,结合提示工程(Prompting Engineering),能够优化LLM在复杂和可扩展应用中的表现。 RAG的评估 RAG系统的评估基于检索到的上下文质量和生成的内容质量。评估指标包括规范化折扣累计增益(NDCG)、命中率、F1值和精确匹配(EM)等。评估重点是上下文的相关性、答案的准确性和相关性,以及抗噪声能力和信息整合能力。 RAG面临的挑战与未来展望

相关推荐

封面图片

一套完整的基于检索增强生成(RAG)架构的知识图谱建立和查询引擎,利用Pinecone向量数据库技术,能快速构建自定义的RAG模

一套完整的基于检索增强生成(RAG)架构的知识图谱建立和查询引擎,利用Pinecone向量数据库技术,能快速构建自定义的RAG模型,随时查询文档库给出相关回答,实现了完整的RAG工作流程:从文档的切分、embedding到会话记录管理、查询优化、上下文检索以及增强生成,可帮助开发者快速构建自己领域的问答系统,也支持迁移现有基于OpenAI API的应用 |

封面图片

企业定制LLM应用构建方案,将内部知识库作为模型的上下文,即作为提示的一部分,通过Fine-Tuning开源LLM,或者检索增强

企业定制LLM应用构建方案,将内部知识库作为模型的上下文,即作为提示的一部分,通过Fine-Tuning开源LLM,或者检索增强生成(RAG)的方式。性能取决于许多因素,如块的大小、块之间的重叠、嵌入技术等 |

封面图片

基于LLM的系统和产品的构建模式 | 讨论了如何将大型语言模型(LLM)应用于系统和产品中的实用模式,介绍了七种关键模式,包括评

基于LLM的系统和产品的构建模式 | 讨论了如何将大型语言模型(LLM)应用于系统和产品中的实用模式,介绍了七种关键模式,包括评估性能、使用外部知识、微调模型、缓存技术以减少延迟和成本、设置保护措施确保输出质量、设计防御性用户体验来处理错误、收集用户反馈来建立数据循环。 深入讨论了如何使用各种评估指标来衡量模型性能,包括BLEU、ROUGE、BERTScore和MoverScore等;提到了如何使用检索增强生成技术(RAG)将外部信息嵌入到模型中,提高生成质量和可用性。

封面图片

(Retrieval Augmented Generation)是一种将检索到的信息作为上下文提供给大语言模型来产生回答的技术。

(Retrieval Augmented Generation)是一种将检索到的信息作为上下文提供给大语言模型来产生回答的技术。它是2022年后最流行的大语言模型系统架构之一,有很多产品都是基于RAG构建的。LangChain和LlamaIndex是两个流行的开源RAG库。 RAG由搜索和大语言模型提示组成,可以看作是搜索+大语言模型的结合。基本流程包括:将文本分块,用Transformer Encoder模型将这些块嵌入为向量,将向量放入索引,构造提示,让大语言模型基于检索到的上下文来回答用户查询。 本文详细介绍和说明了RAG中的各种高级技术和算法,以及对这些技术的参考实现,旨在帮助开发者更深入地了解RAG技术。

封面图片

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 关于这几个核心概念,值得注意的是: 1⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 比如根据员工职级限制其可获取的企业知识库信息范围。

封面图片

:NVIDIA的本地聊天机器人项目

:NVIDIA的本地聊天机器人项目 Chat With RTX让用户可以个性化训练一个连接自定义内容(文档、视频等)的大型语言模型,并与其聊天获取相关回复。 Chat With RTX利用了检索增强型生成(RAG)、TensorRT-LLM和RTX加速,可以快速从自定义聊天机器人中获取与上下文相关的回复。它支持各种文件格式,包括文本、pdf、doc/docx、xml等。用户可以指向含有这些文件的文件夹,应用可以在几秒内加载它们。 Chat With RTX技术演示基于GitHub上的TensorRT-LLM RAG开发者参考项目构建。开发者可以基于该项目开发部署自己的RAG应用。 Chat With RTX需要Windows 11系统,NVIDIA GeForce RTX 30/40系列或支持TensorRT-LLM的GPU,16GB以上RAM。 RTX GPU通过TensorRT-LLM可以实现下一级别的AI性能,提供增强的创造力、生产力,以及极快的游戏体验。 NVIDIA提供了各种面向开发者的生成AI工具和面向企业的解决方案。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人