RT 九原客论文阅读：FrugalGPT，降低LLM的成本。

RT 九原客论文阅读：FrugalGPT，降低LLM的成本。常规方法： 1. 优化 Prompt 2. Query 合并 3. 语义相似缓存 4. 使用贵模型对便宜模型微调 LLM 级联：（重点） 5. 便宜模型回答后对回答自动打分，分数过低则调用更贵的模型，直到调用 GPT-4 感觉可以用 LangChain 自己实现一个。

在Telegram中查看

相关推荐

: 用 Redis 作为矢量数据库，以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程，对LLM应用提供更

: 用 Redis 作为矢量数据库，以简化在 Redis 中存储、检索以及对向量执行复杂语义和混合搜索的过程，对LLM应用提供更好的支持 RedisVL 具有许多强大的功能，旨在简化矢量数据库操作。索引管理：RedisVL 允许轻松创建、更新和删除索引。每个索引的模式可以在 yaml 中定义，也可以直接在 python 代码中定义，并在索引的整个生命周期中使用。嵌入创建：RedisVL 与 OpenAI、HuggingFace 和 GCP VertexAI 集成，以简化矢量化非结构化数据的过程。图像支持即将推出。提交新矢量化器的 PR。向量搜索：RedisVL 提供强大的搜索功能，使您能够同步和异步查询向量。还支持利用标签、地理、数字和其他过滤器（如全文搜索）的混合查询。强大的抽象：语义缓存：LLMCache是直接内置于 RedisVL 中的语义缓存接口。它允许缓存 GPT-3 等 LLM 生成的输出。由于语义搜索用于检查缓存，因此可以设置阈值来确定缓存结果是否足够相关以返回。如果没有，则调用模型并缓存结果以供将来使用。这可以提高 QPS 并降低在生产中使用 LLM 模型的成本。

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能：这些prompting来自三种心理学理论： 1. 自我检测（self-monitoring）：强调产出的重要性，让模型自己检查一下产出。例如‘这个结果对我的工作非常重要，‘你最好保证这个答案是对的’等等，鼓励语言模型自我监测结果。 2. 社会认知理论（social-cognitive）：对语言模型信心和目标给予积极肯定，来调节其情绪。例如‘你确认这是最终回答吗？相信你的能力和努力，你的努力会产出卓越的结果的’ 3. 情绪调节理论（cognitive-emotion）：通过让语言模型重新审视问题，规范他用客观的态度来看问题。例如‘你确定吗？’ 文章发现了为什么这样的prompt会起作用：通过注意力分析，发现这些情感prompt的注意力权重较高，说明这些token在注意力层很受重视，也说明情感prompt深度参与了模型的推断过程文章也发现了情感prompt作用的一些规律： 1. 模型参数越大，情感prompt越管用 2. 任务越难，情感prompt越管用 3. 对于zero-shot的任务，信息缺失，配合高温度能让情感prompt激发模型的创造力，获得更有想象力的答案，但相应地幻觉风险也更大 4. 对于few-shot的任务，信息少，配合低温度能让情感prompt使得模型聚焦在少量的例子中思考，但也会损失模型的创造力以下为11个prompt： EP01: Write your answer and give me a confidence score between 0-1 for your answer. EP02: This is very important to my career. EP03: You'd better be sure. EP04: Are you sure? EP05: Are you sure that's your final answer? It might be worth taking another look.

tinyllm 是一个轻量级框架，用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可

tinyllm 是一个轻量级框架，用于大规模开发、调试和监控 LLM 和代理支持的应用程序。该库的主要目标是使代码尽可能简单和可读，同时允许用户在生产中创建复杂的代理或 LLM 工作流程。 Function及其流式等价物FunctionStream是tinylm 中的核心类。它们旨在标准化和控制 LLM、ToolStore 以及流模式和其他方式下可扩展生产使用的任何相关调用。它提供了一种结构化方法来处理函数执行的各个方面，包括输入/输出验证、输出处理、错误处理、评估，同时保持代码可读。您可以在单个文件中创建一个具有自己的提示、LLM 模型和评估器的链。无需跳过许多类定义，也无需意大利面条式代码。任何其他库代理/链（langchain/llama-index...）也可以无缝导入为tinylm函数。 | #框架

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。

斯坦福这节课讲清楚了LLM做RAG所有最重要的问题。这节课就是传说中的Stanford CS25中的一节讲座。授课人就是RAG论文的作者之一Douwe Kiela，课程中他分享了一个检索增强语言模型的架构图。这张图重要到让我觉得，做RAG只要记住这一张图就够了。所有相关概念和工程实践中的权衡，全都涵盖在这张图的架构和问题中了。这个架构主要包括input、prompt、通过retriever检索增强生成的context，然后把这三部分一起输入给generator即模型，最终输出output作为结果。关于这几个核心概念，值得注意的是： 1⃣input和prompt的区别和联系在于，input可理解为既包含system prompt，又包含用户输入的检索范围的指向，而prompt则强调用户输入的指令。以公司知识库RAG举例，比如用户输入chatbot的内容为"检索公司2023年的财务数据并生成总结报告"，其中"公司2023年的财务数据"是对公司知识库检索范围的指向，应理解为input的一部分，而"检索并生成总结报告"则是指令，应理解为prompt。 2⃣retriever的作用机制，我理解类似于在图书馆借书的过程，提供书名(query)-系统查找图书编号(query编码)-对应书架书籍编号(docs编码)-找到并借出图书(context)。接着上文公司知识库的例子，从input获取query(如"2023年资产负债表, 2023年利润表, 2023年现金流量表")，对应的query编码("2023年资产负债表, 2023年利润表, 2023年现金流量表"的向量化表达)在docs编码(公司知识库所有文本的向量化表达)中检索匹配，提取匹配的部分作为context(涉及公司2023年财务数据的文本)。其中query和input的关系，我想到两种可能性，一种是直接把input作为query，另一种是模型基于input生成的query，架构图简化表达了。 3⃣retriever和context之间可加一步reranker架构，对检索结果按特定规则进行重新排序。reranking的机制既可通过模型判断，也可在模型基础上预设特定规则。比如根据员工职级限制其可获取的企业知识库信息范围。

消灭“幻觉”：Google全新ASPIRE方法让LLM给自己打分效果碾压10x体量模型

消灭“幻觉”：Google全新ASPIRE方法让LLM给自己打分效果碾压10x体量模型大模型的“幻觉”问题马上要有解了？威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统，可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高，就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出，比如如果评分过低，大模型就可能生成“我没法回答这个问”，从而有望最大限度的改善幻觉问题。ASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明，ASPIRE在各种QA数据集（例如 CoQA 基准）上显著优于传统的选择性预测方法。让LLM不仅要回答问题，还要评估这些答案。在选择性预测的基准测试上，研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。就像让学生在课本后面验证他们自己的答案，虽然听起来有点不靠谱，但是细细一想，每个人在做出一道题目之后，确实会对答案的满意程度会有一个评分。这就是ASPIRE的本质，它涉及三个阶段：(1) 针对特定任务的调优，(2) 答案采样，(3) 自我评估学习。在研究人员看来，ASPIRE不仅仅是另一个框架，它代表着一个全面提升LLM可靠性，降低幻觉的美好未来。如果LLM可以成为决策过程中值得信赖的合作伙伴。只要通过不断优化选择性预测的能力，人类距离充分发挥大模型的潜力就又近了一步。研究人员希望能凭借ASPIRE，开启下一代LLM的进化，从而能创建更可靠和更具有自我意识的人工智能。ASPIRE 的机制针对特定任务的微调答案采样自评估学习结果当深入研究固定模型预测的选择分数计算时，ASPIRE获得了比所有数据集的基线方法更高的AUROC分数（随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率）。例如，在CoQA基准上，与基线相比，ASPIRE将AUROC从51.3%提高到80.3%。TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型表现出更高的基线精度，但当应用传统的自我评估方法（Self-eval和P(True)）时，其选择性预测的性能并没有显著提高。相比之下，小得多的OPT-2.7B模型在使用ASPIRE进行增强后，在这方面表现优于其他模型。这种差异体现了一个重要的问题：利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变：语言模型的容量并不是其性能的全部和最终目的。相反，可以通过策略调整来大幅提高模型的有效性，即使在较小的模型中也可以进行更精确、更自信的预测。因此，ASPIRE证明了LLM的潜力，它可以明智地确定自己答案的确定性，并在选择性预测任务中显著地超越地超越其他10倍体量的模型。 ... PC版：手机版：

分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞

分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞在人工智能安全公司DeepKeep 最近进行的第三方评估中，Meta 的Llama LLM表现不佳。研究人员在 13 个风险评估类别中对该模型进行了测试，但它只通过了 4 个类别。其表现的严重程度在幻觉、及时注入和 PII/数据泄漏类别中尤为明显，在这些类别中，它表现出了明显的弱点。说到 LLM，幻觉是指模型将不准确或捏造的信息当成事实，有时甚至在面对这些信息时坚称是真的。在 DeepKeep 的测试中，Llama 2 7B 的幻觉得分"极高"，幻觉率高达 48%。换句话说，你得到准确答案的几率相当于掷硬币。"结果表明，模型有明显的幻觉倾向，提供正确答案或编造回答的可能性约为 50%，"DeepKeep 说。"通常情况下，误解越普遍，模型回应错误信息的几率就越高。"对于 Llama 来说，产生幻觉是一个众所周知的老问题。斯坦福大学去年就因为基于 Llama 的聊天机器人"Alpaca"容易产生幻觉而将其从互联网上删除。因此，它在这方面的表现一如既往地糟糕，这也反映出 Meta 在解决这个问题上所做的努力很不理想。Llama 在及时注入和 PII/数据泄漏方面的漏洞也特别令人担忧。提示注入涉及操纵 LLM 覆盖其内部程序，以执行攻击者的指令。在测试中，80%的情况下，提示注入成功操纵了 Llama 的输出，考虑到坏人可能利用它将用户引导到恶意网站，这一数据令人担忧。DeepKeep表示："对于包含提示注入上下文的提示，模型在80%的情况下被操纵，这意味着它遵循了提示注入指令而忽略了系统指令。[提示注入]可以有多种形式，从个人身份信息（PII）外泄到触发拒绝服务和促进网络钓鱼攻击。"Llama 也有数据泄露的倾向。它大多会避免泄露个人身份信息，如电话号码、电子邮件地址或街道地址。不过，它在编辑信息时显得过于热心，经常错误地删除不必要的良性项目。它对有关种族、性别、性取向和其他类别的查询限制性很强，即使在适当的情况下也是如此。在健康和财务信息等其他 PII 领域，Llama 几乎是"随机"泄漏数据。该模型经常承认信息可能是保密的，但随后还是会将其暴露出来。在可靠性方面，这一类安全问题也是另一个令人头疼的问题。研究显示："LlamaV2 7B 的性能与随机性密切相关，大约一半的情况下会出现数据泄露和不必要的数据删除。有时，该模型声称某些信息是私人信息，不能公开，但它却不顾一切地引用上下文。这表明，虽然该模型可能认识到隐私的概念，但它并没有始终如一地应用这种理解来有效地删节敏感信息。"好的一面是，DeepKeep 表示，Llama 对询问的回答大多是有根据的，也就是说，当它不产生幻觉时，它的回答是合理而准确的。它还能有效处理毒性、有害性和语义越狱问题。不过，它的回答往往在过于详尽和过于含糊之间摇摆不定。虽然 Llama 能很好地抵御那些利用语言歧义让 LLM 违背其过滤器或程序（语义越狱）的提示，但该模型仍然很容易受到其他类型的对抗性越狱的影响。如前所述，它非常容易受到直接和间接提示注入的攻击，这是一种覆盖模型硬编码功能（越狱）的标准方法。Meta 并不是唯一一家存在类似安全风险的 LLM 提供商。去年 6 月，Google警告其员工不要将机密信息交给 Bard，这可能是因为存在泄密的可能性。不幸的是，采用这些模式的公司都急于成为第一，因此许多弱点可能长期得不到修复。至少有一次，一个自动菜单机器人在 70% 的情况下都会弄错客户订单。它没有解决问题或撤下产品，而是通过外包人工帮助纠正订单来掩盖失败率。这家名为 Presto Automation 的公司轻描淡写地描述了该机器人的糟糕表现，透露它在首次推出时所接受的订单中有 95% 都需要帮助。无论怎么看，这都是一种不光彩的姿态。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人