Pile-T5:更好的通用预训练语言模型
:更好的通用预训练语言模型Pile-T5通过在Pile数据集上预训练T5模型,并使用LLAMA分词器,改进了原始T5的编码能力。Pile-T5总体上明显优于原始T5v1.1模型,尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。在多个下游任务的微调中,Pile-T5不同规模的模型表现优异,如在SuperGLUE、CodeXGLUE、MMLU和BigBenchHard上的结果。尽管与专门微调的Flan-T5相比略逊色,但Pile-T5仍优于T5v1.1,表明其预训练质量更高,更适合多任务微调。公开了Pile-T5模型在不同训练步长的中间检查点,这有利于模型演化和解释性研究。Pile-T5Large模型在某些任务上的表现不佳,可能存在bug,用户需谨慎使用。