是一个用于训练大规模语言模型的轻量工具，具有灵活的数据和模型平行功能

：用于大规模语言模型(LLM)训练的原生PyTorch库

大规模信息提取语料库，用于训练和评估信息提取模型 | #语料库

：大规模、信息丰富、多样化的多轮对话数据，以方便构建具有通用会话能力的强大语言模型

：大规模、信息丰富、多样化的多轮对话数据，以方便构建具有通用会话能力的强大语言模型为了保证生成质量，生成时采用了两个独立的 ChatGPT Turbo API，其中一个扮演用户角色生成查询，另一个生成响应。该项目使用精心设计的提示来指导用户模型模仿人类用户行为并迭代调用这两个 API。生成的对话经过进一步的后处理和过滤。由三个部门组成： Questions about the World：该部门的对话数据来自与现实世界中的概念、实体和对象相关的广泛查询。涵盖的主题广泛，涵盖技术、艺术和创业等领域。写作与创作：该领域的对话数据由从零开始的写作/创作需求驱动，涵盖了 AI 助手在创作过程中可能协助完成的任何任务，从电子邮件撰写到制作叙事和剧本，超越。 Assistance on Existent Materials : 该板块的对话数据是基于现有材料生成的，包括但不限于改写、延续、总结和推理，涵盖主题多样。

：轻量、独立的 C++ 推理引擎，用于 Google Gemma 基础模型

CodeGeeX：这是一个具有 130 亿参数的大规模多语言代码生成模型，开源版的copilot，CodeGeeX是一个具有13

CodeGeeX：这是一个具有 130 亿参数的大规模多语言代码生成模型，开源版的copilot，CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码 ||

是一个用于训练大规模语言模型的轻量工具，具有灵活的数据和模型平行功能

相关推荐

：用于大规模语言模型(LLM)训练的原生PyTorch库

大规模信息提取语料库，用于训练和评估信息提取模型 | #语料库

：大规模、信息丰富、多样化的多轮对话数据，以方便构建具有通用会话能力的强大语言模型

：轻量、独立的 C++ 推理引擎，用于 Google Gemma 基础模型

CodeGeeX：这是一个具有 130 亿参数的大规模多语言代码生成模型，开源版的copilot，CodeGeeX是一个具有13

多语言脏话列表一般用于清洗大规模数据