持续更新的中文指令微调数据集,支持双语微调和数据修正。
持续更新的中文指令微调数据集,支持双语微调和数据修正。本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:修改原始英文数据集的一些问题翻译为中文数据集调整直译导致的一些samplecode等一些特殊的输出不进行翻译对齐一些特殊的标签或者拒绝生成等输出#数据集