datawhale的教学项目：大模型基础

datawhale的教学项目：本项目旨在作为一个大规模预训练语言模型的教程，从数据准备、模型构建、训练策略到模型评估与改进，以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。项目将以斯坦福大学大规模语言模型课程和李宏毅生成式AI课程为基础，结合来自开源贡献者的补充和完善，以及对前沿大模型知识的及时更新，为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解，以及代码的实战，我们希望建立一个具有广泛参考价值的项目。项目受众人工智能、自然语言处理和机器学习领域的研究者和从业者：该项目旨在为研究者和从业者提供大规模预训练语言模型的知识和技术，帮助他们更深入地了解当前领域的最新动态和研究进展。学术界和产业界对大型语言模型感兴趣的人士：项目内容涵盖了大型语言模型的各个方面，从数据准备、模型构建到训练和评估，以及安全、隐私和环境影响等方面。这有助于拓宽受众在这一领域的知识面，并加深对大型语言模型的理解。想要参与大规模语言模型开源项目的人士：本项目提供代码贡献和理论知识，降低受众在大规模预训练学习的门槛。其余大型语言模型相关行业人员：项目内容还涉及大型语言模型的法律和道德考虑，如版权法、合理使用、公平性等方面的分享，这有助于相关行业从业者更好地了解大型语言模型的相关问题。项目亮点项目的及时性：当前大模型发展迅速，社会和学习者缺少较为全面和系统的大模型教程项目可持续性：当前大模型发展还在初期阶段，对行业的渗透还未全面展开，因此随着大模型的发展，该项目可持续的为学习者提供帮助

在Telegram中查看

相关推荐

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》，介绍了

Google的教学视频《》，介绍了大型语言模型（LargeLanguageModels，LLMs）的概念、使用场景、提示调整以及Google的GenAI开发工具。大型语言模型是深度学习的一个子集，可以预训练并进行特定目的的微调。这些模型经过训练，可以解决诸如文本分类、问题回答、文档摘要、跨行业的文本生成等常见语言问题。然后，可以利用相对较小的领域数据集对这些模型进行定制，以解决零售、金融、娱乐等不同领域的特定问题。大型语言模型的三个主要特征是：大型、通用性和预训练微调。"大型"既指训练数据集的巨大规模，也指参数的数量。"通用性"意味着这些模型足够解决常见问题。"预训练和微调"是指用大型数据集对大型语言模型进行一般性的预训练，然后用较小的数据集对其进行特定目的的微调。使用大型语言模型的好处包括：一种模型可用于不同的任务；微调大型语言模型需要的领域训练数据较少；随着数据和参数的增加，大型语言模型的性能也在持续增长。此外，视频还解释了传统编程、神经网络和生成模型的不同，以及预训练模型的LLM开发与传统的ML开发的区别。在自然语言处理中，提示设计和提示工程是两个密切相关的概念，这两者都涉及创建清晰、简洁、富有信息的提示。视频中还提到了三种类型的大型语言模型：通用语言模型、指令调整模型和对话调整模型。每种模型都需要以不同的方式进行提示。

API for Open LLMs：开源大模型的统一后端接口，支持多种开源大模型

：开源大模型的统一后端接口，支持多种开源大模型该项目为开源大模型的推理实现统一的接口接口，与OpenAI响应保持一致，具有以下特性：以OpenAIChatGPTAPI这样的方式调用开源分布式大模型支持流式响应，实现打印机效果实现文本嵌入模型，为文档知识问答提供支持支持大规模语言模型开发工具langchain的广泛功能要简单的修改环境变量即可将开源模型作为chatgpt的替代模型，为大众应用提供反馈支持支持加载经过自行训练的lora模型

15 号发布的一个大世界模型，感觉像是一个带视频生成的多模态模型，也挺厉害了，跟 Gemini 1.5 Pro 的能力差不多了。

15号发布的一个大世界模型，感觉像是一个带视频生成的多模态模型，也挺厉害了，跟Gemini1.5Pro的能力差不多了。支持100万上下文的文本检索，可以分析超过1小时的视频，支持视频生成和图片生成。模型介绍：我们创建了一个包含多样视频和书籍的大型数据集，运用了RingAttention（环形注意力）技术来高效训练长序列，并逐步将上下文大小从4千扩展至100万个标记。本文的主要贡献包括：(a)构建了具有最大上下文大小的神经网络：我们训练了一个在处理长视频和语言序列方面具有前所未有的大上下文规模的Transformer（变换器），在复杂的检索任务和长视频理解方面设立了新的标准。(b)提出了克服视觉-语言训练挑战的多种解决方案，包括使用遮蔽序列打包技术混合不同长度的序列、通过损失加权平衡语言和视觉的重要性，以及为长序列对话创建由模型生成的问答数据集。(c)实现了一种高度优化的训练方案，结合了RingAttention、遮蔽序列打包等关键特性，适用于数百万长度的多模态序列。(d)完全开源了一系列拥有70亿参数的模型家族，能够处理长达100万标记以上的长文本文档（LWM-Text,LWM-Text-Chat）和视频（LWM,LWM-Chat）。这项工作为在大规模的长视频和语言数据集上训练，进而理解人类知识和多模态世界，以及开发更广泛的AI能力铺平了道路。项目页面：

LLMPruner：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM,LargeLanguageModel)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(MultilingualLargeLanguageModel)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。#工具

LaWGPT：基于中文法律知识的大语言模型

LaWGPT：基于中文法律知识的大语言模型该系列模型在通用中文基座模型（如Chinese-LLaMA、ChatGLM等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。https://github.com/pengxiao-song/LaWGPT来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

WiNGPT：基于GPT的医疗垂直领域大模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断

WiNGPT：基于GPT的医疗垂直领域大模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务，提高诊疗效率和医疗服务质量。核心功能：医学知识问答：可以回答关于医学、健康、疾病等方面的问题，包括但不限于症状、治疗、药物、预防、检查等。自然语言理解：理解医学术语、病历等医疗文本信息，提供关键信息抽取和归类多轮对话：可扮演各种医疗专业角色如医生与用户进行对话，根据上下文提供更加准确的答案。多任务支持：支持32项医疗任务，八大医疗场景18个子场景。模型架构：基于Transformer的70亿参数规模大语言模型,采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm，训练采用Qwen-7b1作为基础预训练模型。主要特点：高准确度：基于大规模医疗语料库训练，具有较高的准确率和较低的误诊可能性。场景导向：针对不同的医疗场景和真实需求进行专门优化和定制，更好的服务应用落地。迭代优化：持续搜集和学习最新的医学研究，不断提高模型性能和系统功能。下载地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人