本项目旨在构建一个小参数量的llm，走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习四个阶段，以可控的成本完成一个可

本项目旨在构建一个小参数量的llm，走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习四个阶段，以可控的成本完成一个可以完成简单聊天任务的chat模型，目前完成前两个阶段。使用bert4torch训练框架，代码简洁高效；训练的checkpoint可以无缝衔接transformers，直接使用transformers包进行推理；优化了训练时候文件读取方式，优化内存占用；提供了完整训练log供复现比对；增加自我认知数据集，可自定义机器人名称作者等属性。 chat模型支持多轮对话。

在Telegram中查看

相关推荐

TencentPretrain：腾讯预训练模型框架

TencentPretrain：腾讯预训练模型框架预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。 TencentPretrain有如下几方面优势: 可复现 TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型多模态 TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用 SOTA结果 TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等 ||#框架

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型 API：部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLM Engine 提供推理 API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能 K8s 安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础设施。快速冷启动时间：为了防止 GPU 闲置，LLM Engine 在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI# #llm

发现了个好东西，这个老哥开源了一门课程《从头开始构建大型语言模型》，这门课程将一步步地指导你创建自己的LLM。#AI# #llm# 每个阶段都有清晰的文本、图表和实例来解释相关概念。课程内容包括： 1. 从基础理解注意力机制 2. 构建并预训练一个类似于GPT的模型 3. 学习如何加载预训练的权重 4. 对模型进行分类任务的微调 5. 使用直接偏好优化进行指令微调模型课程地址：

字节发布的这个MegaScale估计只有超级大厂才有用，一个在超过一万个 GPU 上训练 LLM 的生产系统。

字节发布的这个MegaScale估计只有超级大厂才有用，一个在超过一万个 GPU 上训练 LLM 的生产系统。整个系统涵盖了从模型块和优化器设计到计算与通信的重叠、运算符优化、数据管道以及网络性能调整的算法和系统组件。 MegaScale 在训练一个 175B 参数的 LLM 模型时，在 12,288 GPU 上实现了 55.2% 的模型浮点运算利用率（Model FLOPs Utilization，MFU），相比 Megatron-LM 提升了 1.34 倍。论文地址：

是一个15.5B参数模型，使用80多种编程语言的GitHub代码进行训练。

是一个15.5B参数模型，使用80多种编程语言的GitHub代码进行训练。该模型采用了多查询注意力和8192个Token的上下文窗口，使用了1万亿个Token的填充中间目标进行训练。可用于生成代码片段，但生成的代码不保证有效、没有漏洞或不包含漏洞 |

已经有人发布了第一个基于Stable Cascade微调的模型HelloWorld SC 1B。

已经有人发布了第一个基于Stable Cascade微调的模型HelloWorld SC 1B。看起来效果不错，不过还是没有比 SDXL 好太多目前微调 SC 模型的成本也很高。这个模型总共使用了740张真实的训练图像，涵盖肖像、科幻等主题。所有图像均使用我们的开源 GPT4V 标记器进行标记。使用的显卡是一张 48G VRAM RTX6000ada。总训练时间为3.5小时。上述参数在训练时会占用约45G的显存。下面是一些作者的图片示例，这里下载模型：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人