持续更新的中文指令微调数据集,支持双语微调和数据修正。
持续更新的中文指令微调数据集,支持双语微调和数据修正。
本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。
原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:
修改原始英文数据集的一些问题
翻译为中文数据集
调整直译导致的一些sample
code等一些特殊的输出不进行翻译
对齐一些特殊的标签 或者拒绝生成等输出
| #数据集