前几天微软发了一篇挺重要的关于 LLM 的论文，但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文，但我看不太懂。从社区讨论来看，这个研究可以大幅压缩模型体积，让 120B 大小的模型能在 24G 显存的设备上运行。再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。论文简介：《1位大语言模型时代来临：一切大型语言模型均转向1.58位构架》一种1位的LLM变体，命名为BitNet b1.58。在这个模型里，大语言模型的每个参数（或权重）都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度（即FP16或BF16）Transformer大语言模型不相上下，但在延迟、内存、吞吐量和能源消耗方面更具成本效益。更为重要的是，1.58位LLM定义了新的扩展规律，并为训练新一代既高性能又高效的LLMs提供了方法。此外，它还开启了一个全新的计算范式，并为设计专门针对1位LLMs优化的硬件提供了可能性。论文：

在Telegram中查看

相关推荐

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能

读论文：一篇有趣的论文：用11种情感刺激prompt来提升LLM的性能：这些prompting来自三种心理学理论： 1. 自我检测（self-monitoring）：强调产出的重要性，让模型自己检查一下产出。例如‘这个结果对我的工作非常重要，‘你最好保证这个答案是对的’等等，鼓励语言模型自我监测结果。 2. 社会认知理论（social-cognitive）：对语言模型信心和目标给予积极肯定，来调节其情绪。例如‘你确认这是最终回答吗？相信你的能力和努力，你的努力会产出卓越的结果的’ 3. 情绪调节理论（cognitive-emotion）：通过让语言模型重新审视问题，规范他用客观的态度来看问题。例如‘你确定吗？’ 文章发现了为什么这样的prompt会起作用：通过注意力分析，发现这些情感prompt的注意力权重较高，说明这些token在注意力层很受重视，也说明情感prompt深度参与了模型的推断过程文章也发现了情感prompt作用的一些规律： 1. 模型参数越大，情感prompt越管用 2. 任务越难，情感prompt越管用 3. 对于zero-shot的任务，信息缺失，配合高温度能让情感prompt激发模型的创造力，获得更有想象力的答案，但相应地幻觉风险也更大 4. 对于few-shot的任务，信息少，配合低温度能让情感prompt使得模型聚焦在少量的例子中思考，但也会损失模型的创造力以下为11个prompt： EP01: Write your answer and give me a confidence score between 0-1 for your answer. EP02: This is very important to my career. EP03: You'd better be sure. EP04: Are you sure? EP05: Are you sure that's your final answer? It might be worth taking another look.

昨天比较重要的一篇论文，通过他们的方案可以在整个大语言模型训练过程中显著降低内存占用。

昨天比较重要的一篇论文，通过他们的方案可以在整个大语言模型训练过程中显著降低内存占用。只需要一张 24GB 内存的消费级 GPU（RTX 4090），就可以预训练 Llama 7B 大语言模型。详细介绍：训练大语言模型 (Large Language Models, LLMs) 面临着显著的内存挑战,主要是由于权重和优化器状态 ...

RT 九原客论文阅读：FrugalGPT，降低LLM的成本。

RT 九原客论文阅读：FrugalGPT，降低LLM的成本。常规方法： 1. 优化 Prompt 2. Query 合并 3. 语义相似缓存 4. 使用贵模型对便宜模型微调 LLM 级联：（重点） 5. 便宜模型回答后对回答自动打分，分数过低则调用更贵的模型，直到调用 GPT-4 感觉可以用 LangChain 自己实现一个。

：关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。

：关于在软件测试中使用大型语言模型 (LLM) 的论文和资源的集合。 LLM已成为自然语言处理和人工智能领域的突破性技术。这些模型能够执行各种与编码相关的任务，包括代码生成和代码推荐。因此，在软件测试中使用LLM预计会产生显着的改进。一方面，软件测试涉及诸如单元测试生成之类的任务，这些任务需要代码理解和生成。另一方面，LLM可以生成多样化的测试输入，以确保全面覆盖正在测试的软件。此存储库对LLM在软件测试中的运用进行了全面回顾，收集了 102 篇相关论文，并从软件测试和法学硕士的角度进行了全面的分析。

关于图相关大型语言模型 (LLM) 的一系列精彩内容。

关于图相关大型语言模型 (LLM) 的一系列精彩内容。大型语言模型 (LLM) 在自然语言处理任务方面取得了显着进步。然而，它们与现实世界应用程序中普遍存在的图形结构的集成仍然相对未被探索。该存储库旨在通过提供精选的研究论文列表来弥合这一差距，这些论文探索基于图形的技术与 LLM 的交叉点。

微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。

微软上周的一篇论文，深入探讨了AI智能体的最新实现进展。对 Agents 有兴可以看看，一篇论文了解 Agents 。详细介绍了 Agents 的主要分类、定义以及设计 Agents 系统的时候需要注意的问题。 Agents 的分类：单一Agent架构：这些架构由一个语言模型驱动，并将自行执行所有推理、规划和工具执行。多Agent架构：这些架构涉及两个或更多代理，每个代理可以利用相同的语言模型或一组不同的语言模型。这些代理可能可以访问相同的工具或不同的工具。每个代理通常有自己的人物形象。多Agent架构又可分为垂直架构和水平架构：垂直架构：在这种结构中，一个代理人充当领导者，其他代理人直接向他们汇报。水平架构：在这种结构中，所有代理都被视为平等的一部分，并参与关于任务的一组讨论。有效Agents的两个关键考虑因素：推理和规划： AI代理要有效地与复杂环境互动、做出自主决策并在各种任务中协助人类，它们需要强大的推理能力。规划，需要强大的推理能力，通常分为五种主要方法：任务分解、多计划选择、外部模块辅助规划、反思和完善以及记忆增强规划。有效工具调用：代理抽象相对于提示基础语言模型的一个关键优势是代理能够通过调用多个工具来解决复杂问题。这些工具使代理能够与外部数据源交互，从现有 API 发送或检索信息等。需要大量工具调用的问题通常与需要复杂推理的问题相辅相成。论文地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人