TencentPretrain：腾讯预训练模型框架

TencentPretrain：腾讯预训练模型框架预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。 TencentPretrain有如下几方面优势: 可复现 TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型多模态 TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用 SOTA结果 TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等 ||#框架

在Telegram中查看

相关推荐

Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力：最先进的扩散管道，只需几行代码即可在推理中运行。可以互换使用的各种噪声调度程序，用于在推理中进行首选速度与质量权衡。多种类型的模型，例如 UNet，可以用作端到端扩散系统中的构建块。训练示例以展示如何训练最流行的扩散模型。推理示例，展示如何为 image2image、in-painting 等高级任务创建自定义管道

：更好的通用预训练语言模型

：更好的通用预训练语言模型 Pile-T5通过在Pile数据集上预训练T5模型，并使用LLAMA分词器，改进了原始T5的编码能力。 Pile-T5总体上明显优于原始T5v1.1模型，尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。在多个下游任务的微调中，Pile-T5不同规模的模型表现优异，如在SuperGLUE、CodeXGLUE、MMLU和BigBench Hard上的结果。尽管与专门微调的Flan-T5相比略逊色，但Pile-T5仍优于T5v1.1，表明其预训练质量更高，更适合多任务微调。公开了Pile-T5模型在不同训练步长的中间检查点，这有利于模型演化和解释性研究。 Pile-T5 Large模型在某些任务上的表现不佳，可能存在bug，用户需谨慎使用。

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM, Large Language Model)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。 | #工具

：完全重写的Keras代码库，基于模块化后端架构进行重构，可以在任意框架上运行Keras工作流，包括TensorFlow、JAX

：完全重写的Keras代码库，基于模块化后端架构进行重构，可以在任意框架上运行Keras工作流，包括TensorFlow、JAX和PyTorch。新功能包括：完整的Keras API，适用于TensorFlow、JAX和PyTorch；跨框架的深度学习低级语言；与JAX、PyTorch和TensorFlow原生工作流的无缝集成；支持所有后端的跨框架数据流水线；预训练模型等

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。

| #指南 - Transformer是训练语言模型最常用的架构。预训练再微调是训练语言模型的主要方法。 - 微调需要收集任务特定的数据集，一般大小在几十MB到几GB。 - 数据预处理非常重要，需要将数据清理成合适的格式，如JSONL。 - 主要的训练超参数包括batch size、epoch数、学习率、梯度累积步数等。 - LoRA是一种减少GPU内存占用的微调方法，QLoRA则通过量化进一步降低了内存需求。 - 学习曲线可以诊断模型的训练情况，判断是否欠拟合、过拟合或拟合良好。 - 模型量化可以降低模型大小，使大模型也能在低显存环境下使用。 - 模型适配器方法可以进行个性化微调而不加载整个模型。 - 模型融合可以组合多个模型的优势得到更优的单模型。 - 合理配置训练超参数以及诊断学习曲线对获得期望的模型至关重要。

本项目旨在构建一个小参数量的llm，走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习四个阶段，以可控的成本完成一个可

本项目旨在构建一个小参数量的llm，走完预训练 -> 指令微调 -> 奖励模型 -> 强化学习四个阶段，以可控的成本完成一个可以完成简单聊天任务的chat模型，目前完成前两个阶段。使用bert4torch训练框架，代码简洁高效；训练的checkpoint可以无缝衔接transformers，直接使用transformers包进行推理；优化了训练时候文件读取方式，优化内存占用；提供了完整训练log供复现比对；增加自我认知数据集，可自定义机器人名称作者等属性。 chat模型支持多轮对话。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人