指令微调数据集、模型、论文和知识库大列表 |

代表性LLM文本数据集大列表，包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集 | #数据集

#发现频道怪兽AI知识库大模型

: 基于大语言模型和多向量数据库的知识库问答系统白盒化解决方案

持续更新的中文指令微调数据集，支持双语微调和数据修正。

持续更新的中文指令微调数据集，支持双语微调和数据修正。本数据集包括中文和英文的混合数据集，方便双语微调，以及后续做持续的数据修正。原始的Alpaca英文数据集也存在不少的问题，个别的数学类的sample是错的，有少部分output字段需要修正，一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上，翻译出对应的中文版本，中文版基本是原始sample的翻译，但是对于一些比如押韵类、时态类的一些instruction，直接翻译导致韵脚丢失，时态不一致等。需要对应的进行人工改写。主要分为以下几个方面：修改原始英文数据集的一些问题翻译为中文数据集调整直译导致的一些sample code等一些特殊的输出不进行翻译对齐一些特殊的标签或者拒绝生成等输出 | #数据集

该存储库收集了与同声传译研究相关的 tookits、常用数据集和论文列表。

Databricks 发布开源指令微调大语言模型 Dolly 2.0

Databricks 发布开源指令微调大语言模型 Dolly 2.0 Databricks 公司两周前发布了它的指令遵循（instruction-following）大语言模型 Dolly，本周三它发布了可授权商业使用的开源指令微调大语言模型。Dolly 2.0 有 120 亿参数，基于 EleutherAI pythia 模型家族，使用高质量的人类生成的指令遵循数据集进行微调。Databricks 开源了 Dolly 2.0 的整个系统，包括训练代码、数据集和模型权重，全都适合商业使用。而目前开源社区流行的 LLaMA 衍生模型使用的是非商业使用授权。来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

相关推荐

代表性LLM文本数据集大列表，包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集 | #数据集

#发现频道怪兽AI知识库大模型

: 基于大语言模型和多向量数据库的知识库问答系统白盒化解决方案

持续更新的中文指令微调数据集，支持双语微调和数据修正。

该存储库收集了与同声传译研究相关的 tookits、常用数据集和论文列表。

Databricks 发布开源指令微调大语言模型 Dolly 2.0