昨天比较重要的一篇论文,通过他们的方案可以在整个大语言模型训练过程中显著降低内存占用。

昨天比较重要的一篇论文,通过他们的方案可以在整个大语言模型训练过程中显著降低内存占用。 只需要一张 24GB 内存的消费级 GPU(RTX 4090),就可以预训练 Llama 7B 大语言模型。 详细介绍: 训练大语言模型 (Large Language Models, LLMs) 面临着显著的内存挑战,主要是由于权重和优化器状态 ...

相关推荐

封面图片

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到的知识。 大语言模型(LLM, Large Language Model)犹如雨后春笋般,其虽然效果惊艳,但参数量巨大,让普通玩家望而却步。 如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model),如LLaMA、mT5、Bloom等,其词表规模巨大,占据非常大部分的模型参数,如Bloom具有25万词表。 在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。 但在许多下游任务中,一般只会用到一两种语言,例如在中文场景中,一般只会用到中英文。 我们可以对大语言模型的词表进行裁剪,只留下所需的部分,这样不仅能够充分保留模型的预训练知识,并且能够使用更少的显卡进行下游任务的finetune,提升训练效率。 | #工具

封面图片

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。

前几天微软发了一篇挺重要的关于 LLM 的论文,但我看不太懂。 从社区讨论来看,这个研究可以大幅压缩模型体积,让 120B 大小的模型能在 24G 显存的设备上运行。 再加上一些其他优化我们在消费级设备运行 Llama 70B 也不是什么遥不可及的事情。 论文简介: 《1位大语言模型时代来临:一切大型语言模型均转向1.58位构架》 一种1位的LLM变体,命名为BitNet b1.58。在这个模型里,大语言模型的每个参数(或权重)都是三元的{-1, 0, 1}。它在复杂度和实际应用性能方面与相同模型规模和训练数据的全精度(即FP16或BF16)Transformer大语言模型不相上下,但在延迟、内存、吞吐量和能源消耗方面更具成本效益。 更为重要的是,1.58位LLM定义了新的扩展规律,并为训练新一代既高性能又高效的LLMs提供了方法。此外,它还开启了一个全新的计算范式,并为设计专门针对1位LLMs优化的硬件提供了可能性。 论文:

封面图片

| #指南LLMs,即大型语言模型(Large Language Models),是一种基于人工智能和机器学习技术构建的先进模型

| #指南 LLMs,即大型语言模型(Large Language Models),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。 LLMs例如GPT、LLama、Mistral系列等,通过深度学习的技术架构,如Transformer,使得这些模型能够捕捉到文本之间深层次的关联和含义。模型首先在广泛的数据集上进行预训练,学习语言的一般特征和模式,然后可以针对特定的任务或领域进行微调,以提高其在特定应用中的表现。 预训练阶段让LLMs掌握了大量的语言知识和世界知识,而微调阶段则使模型能够在特定任务上达到更高的性能。这种训练方法赋予了LLMs在处理各种语言任务时的灵活性和适应性,能够为用户提供准确、多样化的信息和服务。

封面图片

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整

Google的教学视频《》,介绍了大型语言模型(Large Language Models,LLMs)的概念、使用场景、提示调整以及Google的Gen AI开发工具。 大型语言模型是深度学习的一个子集,可以预训练并进行特定目的的微调。这些模型经过训练,可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后,可以利用相对较小的领域数据集对这些模型进行定制,以解决零售、金融、娱乐等不同领域的特定问题。 大型语言模型的三个主要特征是:大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模,也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练,然后用较小的数据集对其进行特定目的的微调。 使用大型语言模型的好处包括:一种模型可用于不同的任务;微调大型语言模型需要的领域训练数据较少;随着数据和参数的增加,大型语言模型的性能也在持续增长。 此外,视频还解释了传统编程、神经网络和生成模型的不同,以及预训练模型的LLM开发与传统的ML开发的区别。 在自然语言处理中,提示设计和提示工程是两个密切相关的概念,这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型:通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

封面图片

教你从零开始构建类似 ChatGPT 的大语言模型。

教你从零开始构建类似 ChatGPT 的大语言模型。 在 GitHub 上发现一本《Build a Large Language Model (From Scratch)》书籍。 作者将带你从头开始构建一个类似 GPT 语言模型,这过程让你了解如何创建、训练和微调大型语言模型 (LLMs)! 书籍主要分为 8 大章节,如下: 第 1 章:了解大语言模型(LLM)解析 第 2 章:介绍文本数据处理技巧 第 3 章:通过编程实现注意力机制(Attention Mechanisms) 第 4 章:从零开始实现类似 GPT 模型 第 5 章:对未标注数据进行预训练 第 6 章:针对文本分类的模型微调 第 7 章:结合人类反馈进行模型微调 第 8 章:在实践中使用大语言模型 书籍前两章内容已出,剩下的会逐步放出。 |

封面图片

用GaLore在消费级硬件上训练大模型 |

用GaLore在消费级硬件上训练大模型 | GaLore 是一种新的参数高效微调(Parameter Efficient Finetuning, PEFT)方法,可以在消费级GPU(如 RTX 3090)上高效训练大型语言模型。与其他PEFT方法(如LoRA、Prefix-Tuning等)相比,GaLore在保持性能的同时,显著降低了所需的内存和计算资源。 GaLore 的关键创新在于引入了一种新的参数分解方式,将模型参数分解为低秩和稀疏两部分,从而大幅减少需要微调的参数数量。GaLore使得在消费级GPU如RTX 4090上训练包含多达70亿参数的语言模型成为可能,这是通过显著减少优化器状态和梯度所需的内存实现的。 在 GPT-2 等基准测试中,GaLore 展现出与完整模型微调相当的性能,但仅需 1/10 的内存和计算资源。 GaLore 不仅适用于自然语言处理任务,对于计算机视觉等其他领域也具有广阔的应用前景。该技术有望推动大型模型的民主化,使更多个人研究者和小型机构能够在普通硬件上训练和部署这些模型。 点评: GaLore 的提出打破了人们对大型模型训练必须依赖昂贵硬件的传统观念,这一反常规的创新值得关注。 将模型参数分解为低秩和稀疏两部分的思路具有很高的创新性和独创性,体现了作者对问题的深入思考。 如果 GaLore 的性能优势得到进一步验证,它有望彻底改变大型模型训练的范式,推动 AI 民主化进程。 尽管取得了突破性进展,但 GaLore 在实际应用中可能还面临一些挑战,如泛化性能、训练稳定性等,需要持续优化和改进。 该技术的出现也引发了一些值得深思的问题,比如大型模型的能源消耗、隐私和安全性等,需要引起足够重视。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人