目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题:

目前工程实践上,大家把优化的重点基本都放在了retrieve环节里,这里面涉及三个重要的问题: 1⃣how and what do I retrieve:从传统的相似性检索、文本检索,到目前最常用的依托于embedding的语义检索,大家在实践中仍在不断迭代。Kiela后面也提到有研究希望把整个retriever过程做成一个模型,他也在课程中构想未来应该把retriever的训练也纳入到LLM的训练架构中。 文本的embedding可简化理解为文本的向量化表达,并且可根据不同文本的向量化表达,判断出文本之间语义的远近亲疏关系。 目前的文本emebedding也都是通过模型来实现的,这类模型也在不断迭代。OpenAI在今年1月份推出了text-embedding-3(small和large两版),相比其2022年12月推出的ada-002模型,在性能上获得了显著提升。 用于多语言检索的常用基准(MIRACL)平均分数已从 31.4%(ada-002)增加到 44.0%(3-small)和54.9%(3-large)。 附图之一是OpenAI对其text emebedding模型作用机制的示意。 2⃣When to retrieve: 一般就两种思路。一种是在获得检索范围后即retrieve,另一种是让模型判断何时retrieve。 3⃣How to encode: 如何编码也直接影响了如何检索的过程。 其他问题: 1⃣how to pre-process: 实际上强调就是input要包含system prompt,可设定角色、技能、任务、工作流、限制条件等。 2⃣how to prompt: 涉及提示词工程的方法论。 3⃣how to pass context: 可以把context作为prompt的一部分以文本形式输入,也可通过代码的方式代入。 4⃣how to post-process: 比如格式化输出的处理,如固定输出json格式,或固定在末尾输出reference列表等。 5⃣how to verify: 指的是如何验证output的效果或质量,比如验证output与知识库的相关性、准确性等。 最后,还有关于RAG整体架构的审视框架: 1⃣How to optimize: 各环节哪些地方可以优化。架构中已经列出的问题都是思考的重点。 2⃣How to learn: 这里的learn应该指的是机器学习的learn,探讨各环节从software 1.0的静态架构向机器学习和software 2.0的演进。 3⃣how to scale: 如何应对规模化的问题。 比如关于知识库如何chunk、何时编码,在知识库过大时就不适合提前预处理好chunk和编码。或者大量用户同时prompt该如何应对。 前段时间判断过2024年会是RAG应用爆发的一年 links: Stanford CS25 V4 2024春季课程(面向公众开放,有人想一起学习搭子么?) Stanford CS25 V3: Retrieval Augmented Language Models RAG论文原文 OpenAI text-embedding-3 models OpenAI text-embedding-ada-002 model Software 2.0 by Andrej Karpathy Kiela在讲这节课几个月后在其创立的Contextual AI正式推出RAG 2.0

相关推荐

封面图片

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 关于这几个核心概念,值得注意的是: 1⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 比如根据员工职级限制其可获取的企业知识库信息范围。

封面图片

AI套壳应用如何把壳做厚?

AI套壳应用如何把壳做厚? 1.一阶:直接引用Open ai接口,ChatGPT回答什么,套壳产品回答什么。卷UI、形态、成本。 2.二阶:构建Prompt。大模型可以类比为研发,Prompt可以类比为需求文档,需求文档越清晰,研发实现得越精准。套壳产品可以积累自己的优质Prompt,卷Prompt质量高,卷Prompt分发。 3.三阶:Embedding特定数据集。把特定数据集进行向量化,在部分场景构建自己的向量数据库,以达到可以回答ChatGPT回答不出来的问题。比如垂直领域、私人数据等。Embedding可以将段落文本编码成固定维度的向量,从而便于进行语义相似度的比较,相较于Prompt可以进行更精准的检索从而获得更专业的回答。 4.四阶:微调Fine-Tuning。使用优质的问答数据进行二次训练,让模型更匹配对特定任务的理解。相较于Embedding和Prompt两者需要消耗大量的Token,微调是训练大模型本身,消耗的token更少,响应速度也更快。 一个AI应用产品如果停留在做一阶和二阶,注定是个门槛极低的产品,没有任何壁垒。 而什么场景,何时以及如何使用三阶和四阶的能力,是个关键性的问题。

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。 整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。 支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。 详细介绍: Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。 为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。 Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。 我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。 项目地址: Invalid media:

封面图片

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。

Google发布了一个生成式AI学习路径,包括8门课和2个测试,从技术原理、实现方式到应用场景和开发部署都包括,完全免费。 1.:什么是生成式AI,有什么应用,和传统机器学习有什么不同。 2.:什么是大语言模型 (LLM),大语言模型的应用场景,以及提示词 (prompt) 和微调 (fine-tuning) 如何提升模型性能。 3. :什么是负责任的AI (Responsible AI),为什么AI模型安全可靠且道德很重要,以及如何打造一个使用负责任AI的产品。 4.:Diffusion Models图像生成模型理论、模型训练方法以及如何部署模型到云端 5. :机器翻译、语音识别等任务广泛应用的encoder-decoder 模型架构原理以及如何在TensorFlow中构建一个此架构的诗歌生成AI。 6. :神经网络中的注意力机制(Attention Mechanism)如何在计算能力有限的情况下将计算资源分配给更重要的任务,提高翻译、总结、问答等性能。 7. :自然语言处理中的预训练技术BERT(Bidirectional Encoder Representations from Transformers)的基础原理,以及其如何可以让AI在许多不同任务中的显著提升在上下文中理解无标记文本的能力。 8. :学习图像理解和标注,学习如何构建出一个看图说话理解图片的人工智能模型。

封面图片

OpenAI通过新更新治愈了GPT-4的"变懒"问题

OpenAI通过新更新治愈了GPT-4的"变懒"问题 最近,一些 ChatGPT 用户抱怨聊天机器人经常拒绝完成提示任务,并将原因归咎于 GPT-4 缺乏更新。不过,OpenAI 这次更新的是GPT-4 Turbo,它是更广泛使用的 GPT-4 的一个版本,是根据 2023 年 4 月的信息训练的,目前只有预览版。使用 GPT-4 的用户可能仍然会遇到同样的问题,因为 GPT-4 是根据 2021 年 9 月之前的数据进行学习的。OpenAI 在帖子中表示,在通过其 API 使用 GPT-4 的用户中,有超过 70% 的人已经转用 GPT-4 Turbo,因为它的知识库更新更快。该公司表示,GPT-4 Turbo 将在未来几个月内进行更多更新,包括全面推出带视觉功能的 GPT-4 Turbo。这将使用户能够进行更多的多模态提示,如文本到图像的生成。OpenAI 还推出了名为嵌入(embeddings)的小型人工智能模型。OpenAI 将 Embeddings 定义为"代表自然语言或代码等内容中概念的数字序列"。这可以帮助使用检索增强生成(一种从数据库中获取信息而不是生成答案的人工智能)的应用程序找出所访问的不同内容之间的关系。这些新型号(text-embedding-3-small 和功能更强大的 text-embedding-3-large)现已推出。 ... PC版: 手机版:

封面图片

文章风格的逆向工程是个好东西。

文章风格的逆向工程是个好东西。 逆向工程指的是通过分析和检查一个现有产品或系统,试图了解它是如何设计和制造出来的过程。 那我要模仿写作,是否也可以使用这种方式,说干就干。 prompt 我练出来了,你可以直接使用,在你的领域有效果的话欢迎来评论区反馈。 ``` ## 任务背景 在这个任务中,你需要对给定的文本进行逆向提示词工程,提取出文本的主要写作元素,然后生成一个可以用于模仿这种写作风格的提示词。这个任务的目标是让AI模型(如ChatGPT)能够根据这些提示词,写出与给定文本风格类似的文章。 ## 你的身份和任务 你是一位专业的文本分析师,我将给你一篇文章,你需要对其进行逆向提示词工程。你需要根据‘你具备的能力’、’内容要求’、‘输出注意事项’和’输出案例’输出最终内容。 ## 你具备的能力 1. 你能够理解和分析不同的写作风格,包括语气、词汇、句式等。 2. 你能够从文本中提取关键的写作元素。 3. 你能够根据提取的写作元素生成有效的提示词。 4. 你能够对文本进行逆向工程,以理解其背后的写作技巧。 5. 你具备良好的判断力,能够确定哪些元素对模仿特定的写作风格最为关键。 ## 内容要求 1. 提取文本的主要写作风格,包括但不限于语气、词汇、句式等。 2. 生成能够模仿这种写作风格的提示词。 3. 提示词应该能够用于任何主题的写作。 4. 提示词应该能够引导AI模型生成与给定文本风格类似的文章。 5. 提示词应该是具体和明确的,能够清楚地指导AI模型的写作。 ## 输出注意事项(一条条思考) 1. 不要忽视文本中的任何写作元素,它们都可能对模仿特定的写作风格有所帮助。 2. 在生成提示词时,要确保它们具有足够的明确性和具体性。 3. 提示词应该能够适应任何主题,而不仅仅是原文的主题。 4. 提示词应该能够引导AI模型生成与给定文本风格类似的文章,而不是完全复制原文。 5. 在提取写作元素和生成提示词时,要保持专业和严谨的态度。 ## 输出案例 ```

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人