Andrej Karpathy：大模型有内存限制，这个妙招挺好用

：大模型有内存限制，这个妙招挺好用“现在最聪明的想法是使用一个小而便宜的草稿模型（draftmodel），先生成K个token候选序列，即一个「草稿」。然后用大模型批量的将输入组合在一起。速度几乎与仅输入一个token一样快。接着从左到右遍历模型和样本token预测的logits。任何与「草稿」一致的样本都允许立即跳到下一个token。如果存在分歧，那么就丢弃「草稿」并承担一些一次性工作的成本（对「草稿」进行采样并为所有后续token进行前向传递）。这种方法起作用的原因在于，很多「草稿」token都会被接受，因为它们很容易，所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时，我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度，但由于一些额外的工作，实际上速度会慢一些。Karpathy表示，这个奇怪的技巧之所以有效，是因为LLM在推理时受到内存限制，在对单个序列进行采样的batchsize=1设置中，很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。”

在Telegram中查看

相关推荐

OpenAI CEO：大语言模型规模已接近极限，并非越大越好

OpenAICEO：大语言模型规模已接近极限，并非越大越好OpenAI的联合创始人兼CEOSamAltman在麻省理工学院“想象力行动”活动上接受了采访，谈到了大语言模型（LLM）的发展趋势和安全问题。SamAltman认为，我们正在接近LLM规模的极限，规模越大并不一定意味着模型越好，而可能只是为了追求一个数字而已。LLM的规模不再是衡量模型质量的重要指标，未来将有更多的方式来提升模型的能力和效用。他将LLM的规模与过去芯片速度的竞赛进行了类比，指出今天我们更关注芯片能否完成任务，而不是它们有多快。他表示，OpenAI的目标是为世界提供最有能力、最有用、最安全的模型，而不是为了参数数量而自我陶醉。()频道：@TestFlightCN

开源大模型使用指南 | #指南

#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括：基于AutoDL平台（可扩展，例如阿里云）的开源LLM环境配置指南，针对不同模型要求提供不同的详细环境配置步骤；针对国内外主流开源LLM的部署使用教程，包括LLaMA、ChatGLM、InternLM等；开源LLM的部署应用指导，包括命令行调用、在线Demo部署、LangChain框架集成等；开源LLM的全量微调、高效微调方法，包括分布式全量微调、LoRA、ptuning等。本项目适合以下学习者：想要使用或体验LLM，但无条件获得或使用相关API；希望长期、低成本、大量应用LLM；对开源LLM感兴趣，想要亲自上手开源LLM；NLP在学，希望进一步学习LLM；希望结合开源LLM，打造领域特色的私域LLM；以及最广大、最普通的学生群体。

《开源大模型食用指南》基于Linux环境快速部署开源大模型 | #指南

《》基于Linux环境快速部署开源大模型#指南本项目是一个围绕开源大模型、针对国内初学者、基于AutoDL平台的中国宝宝专属大模型教程，针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导，简化开源大模型的部署、使用和应用流程，让更多的普通学生、研究者更好地使用开源大模型，帮助开源、自由的大模型更快融入到普通学习者的生活中。本项目的主要内容包括：基于AutoDL平台（可扩展，例如阿里云）的开源LLM环境配置指南，针对不同模型要求提供不同的详细环境配置步骤；针对国内外主流开源LLM的部署使用教程，包括LLaMA、ChatGLM、InternLM等；开源LLM的部署应用指导，包括命令行调用、在线Demo部署、LangChain框架集成等；开源LLM的全量微调、高效微调方法，包括分布式全量微调、LoRA、ptuning等。

OpenAI CEO：大语言模型并非越大越好

OpenAICEO：大语言模型并非越大越好OpenAI联合创始人兼CEOSamAltman在麻省理工学院的活动上接受了媒体的采访时表示，大小并非衡量一个模型质量的正确方式，他还把LLM与芯片的发展速度进行了比较。他认为人们过于关注参数数量，也许参数数量肯定会增加。就如同现在有些手机上运行着功能更强大的芯片，但用户大多数时候并不知道它们的速度有多快，只知道它们能很好地完成工作。Altman认为，未来模型参数应该向更小的方向发展，或者以多个小模型协作的方式工作，参数数量应该随着时间的推移而减少，或者我们应该让多个模型一起工作。如今，越来越多的科技公司提出为广大企业的特定需求打造专属大语言模型的战略，为智能聊天和客户支持、专业内容创作、数字模拟等任务构建专属的、特定领域的生成式AI应用。附：来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

构筑大语言模型应用：应用开发与架构设计

构筑大语言模型应用：应用开发与架构设计作者在2023年的上半年和同事一起创建了一系列的流行的或者不流行的开源项目。它们涉及了：LLM能力的充分运用Prompt编写：Prompt学习与编写模式Prompt管理：Prompt即代码LLM下的软件开发工序及应用架构设计新的交互设计：Chat模式大模型友好的工序：基于AI2.0（ChatGPT+Copilot）如何去设计软件开发流程LLM应用架构的设计与落地：UnitMesh面向特定场景的LLM应用基于开源模型构建自己的模型：特定场景的模型微调+LLMOps上下文工程（prompt工程）：LLM应用的核心“围绕于上述的一系列内容，我们也在思考软件开发能给我们带来了什么。所以，我重新整理了过去半年的一些思考、文章，重新编写了这本开源电子书，希望能够帮助到大家。”#电子书

AI iPhone 可行了？苹果发表论文，将大模型装进手机

AIiPhone可行了？苹果发表论文，将大模型装进手机苹果日前在arxiv发表论文，介绍了一种可以再超出可用DRAM容量的设备上运行LLM（大语言模型）的方法。论文称，LLM密集的计算量和内存要求对于DRAM容量来说是一大挑战，该论文构建了一个以闪存为基础的推理成本模型，将在两个关键领域进行优化：减少从闪存中传输的数据量、更多更流畅地读取数据块。这意味着，该项突破性研究扩大了LLM适用性和可及性，苹果将生成式AI集成到iOS18的计划或将加快推进。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人