:更好的通用预训练语言模型
:更好的通用预训练语言模型
Pile-T5通过在Pile数据集上预训练T5模型,并使用LLAMA分词器,改进了原始T5的编码能力。
Pile-T5总体上明显优于原始T5v1.1模型,尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。
在多个下游任务的微调中,Pile-T5不同规模的模型表现优异,如在SuperGLUE、CodeXGLUE、MMLU和BigBench Hard上的结果。
尽管与专门微调的Flan-T5相比略逊色,但Pile-T5仍优于T5v1.1,表明其预训练质量更高,更适合多任务微调。
公开了Pile-T5模型在不同训练步长的中间检查点,这有利于模型演化和解释性研究。
Pile-T5 Large模型在某些任务上的表现不佳,可能存在bug,用户需谨慎使用。