用GaLore在消费级硬件上训练大模型 | 原文

用GaLore在消费级硬件上训练大模型GaLore是一种新的参数高效微调(ParameterEfficientFinetuning，PEFT)方法，可以在消费级GPU(如RTX3090)上高效训练大型语言模型。与其他PEFT方法(如LoRA、Prefix-Tuning等)相比，GaLore在保持性能的同时，显著降低了所需的内存和计算资源。GaLore的关键创新在于引入了一种新的参数分解方式，将模型参数分解为低秩和稀疏两部分，从而大幅减少需要微调的参数数量。GaLore使得在消费级GPU如RTX4090上训练包含多达70亿参数的语言模型成为可能，这是通过显著减少优化器状态和梯度所需的内存实现的。在GPT-2等基准测试中，GaLore展现出与完整模型微调相当的性能，但仅需1/10的内存和计算资源。GaLore不仅适用于自然语言处理任务，对于计算机视觉等其他领域也具有广阔的应用前景。该技术有望推动大型模型的民主化，使更多个人研究者和小型机构能够在普通硬件上训练和部署这些模型。点评：GaLore的提出打破了人们对大型模型训练必须依赖昂贵硬件的传统观念，这一反常规的创新值得关注。将模型参数分解为低秩和稀疏两部分的思路具有很高的创新性和独创性，体现了作者对问题的深入思考。如果GaLore的性能优势得到进一步验证，它有望彻底改变大型模型训练的范式，推动AI民主化进程。尽管取得了突破性进展，但GaLore在实际应用中可能还面临一些挑战，如泛化性能、训练稳定性等，需要持续优化和改进。该技术的出现也引发了一些值得深思的问题，比如大型模型的能源消耗、隐私和安全性等，需要引起足够重视。

在Telegram中查看

相关推荐

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》，介绍了

Google的教学视频《》，介绍了大型语言模型（LargeLanguageModels，LLMs）的概念、使用场景、提示调整以及Google的GenAI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

torchtune：用 PyTorch 轻松微调大语言模型

：用PyTorch轻松微调大语言模型PyTorch发布了torchtune库的alpha版本，用于轻松微调大型语言模型。该库遵循PyTorch的设计原则，提供了组件化和模块化的构建块，以及易于扩展的微调示例，以在各种消费级和专业GPU上微调流行的大型语言模型。torchtune支持从头到尾的完整微调工作流程，包括数据集和模型检查点的下载和准备、可组合的构建块进行训练自定义、训练过程的日志和指标记录、模型量化、在知名基准上的模型评估以及本地推理。torchtune致力于易扩展性、让微调大众化、与开源生态系统的互操作性。未来几周将持续为库增加更多模型、特征和微调技术。torchtune与HuggingFaceHub、PyTorchFSDP、Weights&Biases、EleutherAI的评估工具、ExecuTorch和torchao等开源生态系统的组件深度集成，为用户提供灵活性和控制力。

阶跃星辰发布 Step-2 万亿参数 MoE 语言大模型预览版

阶跃星辰发布Step-2万亿参数MoE语言大模型预览版在今日上海开幕的2024全球开发者先锋大会上，通用大模型创业公司阶跃星辰正式对外亮相。阶跃星辰研发的Step-1V千亿参数多模态大模型，在中国权威的大型模型评估平台“司南”（OpenCompass）多模态模型评测榜单中位列第一，性能比肩GPT-4V。阶跃星辰创始人、CEO姜大昕博士在大会上正式对外发布了Step-2万亿参数MoE语言大模型预览版。模型采用MoE架构，聚焦深度智能的探索，并提供API接口给部分合作伙伴试用。据了解，参数量从千亿到万亿，对算力、系统、数据、算法四个方面都提出了极高的要求，业内只有极少数公司能做到。训练万亿参数模型体现了阶跃星辰的核心技术能力，也表明阶跃星辰在通用人工智能领域追赶OpenAI的实力和决心。

傻瓜式大语言模型微调训练教程_哔哩哔哩_bilibili

发现一个讲的很细的大语言模型微调教程，详细介绍了整个流程,包括数据准备、参数设置、资源监控等关键步骤。基本没有技术能力也可以完成微调。想要了解LLM原理的可以按这个实践一下。时间轴：0:00概念概览3:02自定义数据的准备8:17微调操作演示（T4版本）16:52微调操作演示（A100版本）19:13在HuggingFace上的保存与使用方法文字版整理：如何使用自己的数据对大语言模型进行微调(fine-tuning)：对大语言模型进行微调并不一定非常困难和昂贵。通过使用自己的数据集对预训练模型进行微调,可以让模型更好地适应特定的任务需求。微调过程能够在保留原模型语言理解能力的基础上,进一步提升其在特定领域或任务上的表现。使用HuggingFace模型库和Unslaw工具进行模型微调：HuggingFace提供了丰富的预训练语言模型资源,用户可以根据任务需求选择合适的模型作为基础进行微调。而Unslaw工具则提供了一套简单高效的微调流程,其优点包括出色的内存使用效率以及对扩展上下文窗口的支持。通过Unslaw,用户能够以较低的资源开销完成模型微调。在GoogleColab上使用免费/付费GPU资源进行微调：GoogleColab提供了免费和付费的GPU资源,用户可以根据任务的复杂程度选择使用T4或A100。对于大多数微调任务而言,免费的T4资源已经足够。但如果数据集较大或模型较为复杂,升级到A100可以获得更充裕的算力支持。Colab为用户提供了一个易于上手的模型微调环境。准备自定义的微调数据集：准备微调数据的过程并不复杂。用户可以直接使用纯文本文件作为数据来源,而无需进行额外的预处理。为了获得理想的微调效果,建议至少准备100-200个样本。在示例中,为了快速演示,仅使用了几个样本。通过一个简单的Python脚本,可以方便地将原始文本数据转换为微调所需的JSON格式。修改Colab笔记本中的参数设置：

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

大模型微调实战营-应用篇 - 带源码课件

名称：大模型微调实战营-应用篇-带源码课件描述：本课程包括大模型基础，大模型指令微调，常用的开源模型微调，大模型对齐，垂直领域大模型应用5个阶段，内容涵盖大模型微调应用场景，大模型基座，LoRA参数微调，模型压缩，QLoRA参数微调，DeepSpeed训练框架解析，Megatron-LM训练框架解析，FlashAttention技术应用，微调模型Benchmark，ChatGLM，LLaMA，Mistral，MoE，大模型对齐，RLHF，DPO，垂直领域大模型应用等前沿技术等全方位知识讲解，并结合8个实战项目，帮助同学们实现学以致用。链接：https://www.alipan.com/s/D4K4qJ6s1Mi大小：NG标签：#学习#知识#课程#资源来自：雷锋频道：@Aliyundrive_Share_Channel群组：@alyd_g投稿：@AliYunPanBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人