RT 九原客论文阅读:FrugalGPT,降低LLM的成本。

RT 九原客 论文阅读:FrugalGPT,降低LLM的成本。 常规方法: 1. 优化 Prompt 2. Query 合并 3. 语义相似缓存 4. 使用贵模型对便宜模型微调 LLM 级联:(重点) 5. 便宜模型回答后对回答自动打分,分数过低则调用更贵的模型,直到调用 GPT-4 感觉可以用 LangChain 自己实现一个。

相关推荐

封面图片

面向开发者的 LLM 入门课程,适用于所有具备基础 Python 能力,想要入门 LLM 的开发者。|||| #电子书

面向开发者的 LLM 入门课程,适用于所有具备基础 Python 能力,想要入门 LLM 的开发者。|||| #电子书 由吴恩达老师与 OpenAI 合作推出的大模型系列教程,从大模型时代开发者的基础技能出发,深入浅出地介绍了如何基于大模型 API、LangChain 架构快速开发结合大模型强大能力的应用。 其中,《Prompt Engineering for Developers》教程面向入门 LLM 的开发者,深入浅出地介绍了对于开发者,如何构造 Prompt 并基于 OpenAI 提供的 API 实现包括总结、推断、转换等多种常用功能,是入门 LLM 开发的经典教程; 《Building Systems with the ChatGPT API》教程面向想要基于 LLM 开发应用程序的开发者,简洁有效而又系统全面地介绍了如何基于 ChatGPT API 打造完整的对话系统; 《LangChain for LLM Application Development》教程结合经典大模型开源框架 LangChain,介绍了如何基于 LangChain 框架开发具备实用功能、能力全面的应用程序: 《LangChain Chat With Your Data》教程则在此基础上进一步介绍了如何使用 LangChain 架构结合个人私有数据开发个性化大模型应用。

封面图片

: 用 Redis 作为矢量数据库,以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程,对LLM应用提供更

: 用 Redis 作为矢量数据库,以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程,对LLM应用提供更好的支持 RedisVL 具有许多强大的功能,旨在简化矢量数据库操作。 索引管理:RedisVL 允许轻松创建、更新和删除索引。每个索引的模式可以在 yaml 中定义,也可以直接在 python 代码中定义,并在索引的整个生命周期中使用。 嵌入创建:RedisVL 与 OpenAI、HuggingFace 和 GCP VertexAI 集成,以简化矢量化非结构化数据的过程。图像支持即将推出。提交新矢量化器的 PR。 向量搜索:RedisVL 提供强大的搜索功能,使您能够同步和异步查询向量。还支持利用标签、地理、数字和其他过滤器(如全文搜索)的混合查询。 强大的抽象:语义缓存:LLMCache是直接内置于 RedisVL 中的语义缓存接口。它允许缓存 GPT-3 等 LLM 生成的输出。由于语义搜索用于检查缓存,因此可以设置阈值来确定缓存结果是否足够相关以返回。如果没有,则调用模型并缓存结果以供将来使用。这可以提高 QPS 并降低在生产中使用 LLM 模型的成本。

封面图片

tinyllm 是一个轻量级框架,用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可

tinyllm 是一个轻量级框架,用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可读,同时允许用户在生产中创建复杂的代理或 LLM 工作流程。 Function及其流式等价物FunctionStream是tinylm 中的核心类。它们旨在标准化和控制 LLM、ToolStore 以及流模式和其他方式下可扩展生产使用的任何相关调用。 它提供了一种结构化方法来处理函数执行的各个方面,包括输入/​​输出验证、输出处理、错误处理、评估,同时保持代码可读。您可以在单个文件中创建一个具有自己的提示、LLM 模型和评估器的链。无需跳过许多类定义,也无需意大利面条式代码。任何其他库代理/链(langchain/llama-index...)也可以无缝导入为tinylm函数。 | #框架

封面图片

读论文:一篇有趣的论文:用11种情感刺激prompt来提升LLM的性能

读论文:一篇有趣的论文:用11种情感刺激prompt来提升LLM的性能 : 这些prompting来自三种心理学理论: 1. 自我检测(self-monitoring):强调产出的重要性,让模型自己检查一下产出。例如‘这个结果对我的工作非常重要,‘你最好保证这个答案是对的’等等,鼓励语言模型自我监测结果。 2. 社会认知理论(social-cognitive):对语言模型信心和目标给予积极肯定,来调节其情绪。例如‘你确认这是最终回答吗?相信你的能力和努力,你的努力会产出卓越的结果的’ 3. 情绪调节理论(cognitive-emotion):通过让语言模型重新审视问题,规范他用客观的态度来看问题。例如‘你确定吗?’ 文章发现了为什么这样的prompt会起作用: 通过注意力分析,发现这些情感prompt的注意力权重较高,说明这些token在注意力层很受重视,也说明情感prompt深度参与了模型的推断过程 文章也发现了情感prompt作用的一些规律: 1. 模型参数越大,情感prompt越管用 2. 任务越难,情感prompt越管用 3. 对于zero-shot的任务,信息缺失,配合高温度能让情感prompt激发模型的创造力,获得更有想象力的答案,但相应地幻觉风险也更大 4. 对于few-shot的任务,信息少,配合低温度能让情感prompt使得模型聚焦在少量的例子中思考,但也会损失模型的创造力 以下为11个prompt: EP01: Write your answer and give me a confidence score between 0-1 for your answer. EP02: This is very important to my career. EP03: You'd better be sure. EP04: Are you sure? EP05: Are you sure that's your final answer? It might be worth taking another look.

封面图片

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。 这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela,课程中他分享了一个检索增强语言模型的架构图。 这张图重要到让我觉得,做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡,全都涵盖在这张图的架构和问题中了。 这个架构主要包括input、prompt、通过retriever检索增强生成的context,然后把这三部分一起输入给generator即模型,最终输出output作为结果。 关于这几个核心概念,值得注意的是: 1⃣input和prompt的区别和联系在于,input可理解为既包含system prompt,又包含用户输入的检索范围的指向,而prompt则强调用户输入的指令。 以公司知识库RAG举例,比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告",其中"公司2023年的财务数据"是对公司知识库检索范围的指向,应理解为input的一部分,而"检索并生成总结报告"则是指令,应理解为prompt。 2⃣retriever的作用机制,我理解类似于在图书馆借书的过程,提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。 接着上文公司知识库的例子,从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表"),对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配,提取匹配的部分作为context(涉及公司2023年财务数据的文本)。 其中query和input的关系,我想到两种可能性,一种是直接把input作为query,另一种是模型基于input生成的query,架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构,对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断,也可在模型基础上预设特定规则。 比如根据员工职级限制其可获取的企业知识库信息范围。

封面图片

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型 大模型的“幻觉”问题马上要有解了?威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成“我没法回答这个问”,从而有望最大限度的改善幻觉问题。ASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。让LLM不仅要回答问题,还要评估这些答案 。在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。这就是ASPIRE的本质,它涉及三个阶段:(1) 针对特定任务的调优,(2) 答案采样,(3) 自我评估学习。在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。如果LLM可以成为决策过程中值得信赖的合作伙伴。只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。ASPIRE 的机制针对特定任务的微调答案采样自评估学习结果当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人