，那可以看作是一个训练得更好的waifudiffusion?（也怪不得偶尔会出一些其他SD模型也会出的bug）

Pile-T5：更好的通用预训练语言模型

：更好的通用预训练语言模型Pile-T5通过在Pile数据集上预训练T5模型，并使用LLAMA分词器，改进了原始T5的编码能力。Pile-T5总体上明显优于原始T5v1.1模型，尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。在多个下游任务的微调中，Pile-T5不同规模的模型表现优异，如在SuperGLUE、CodeXGLUE、MMLU和BigBenchHard上的结果。尽管与专门微调的Flan-T5相比略逊色，但Pile-T5仍优于T5v1.1，表明其预训练质量更高，更适合多任务微调。公开了Pile-T5模型在不同训练步长的中间检查点，这有利于模型演化和解释性研究。Pile-T5Large模型在某些任务上的表现不佳，可能存在bug，用户需谨慎使用。

，那可以看作是一个训练得更好的waifudiffusion?（也怪不得偶尔会出一些其他SD模型也会出的bug）

相关推荐

Pile-T5：更好的通用预训练语言模型

张中:啥也不懂然后还啥也不信怪不得你这辈子出不去

训练一个可以生成更好的StableDiffusion输入的GPTNeo模型https://vxtwitter.com/virus

这两个是小熊云翻版，附带说明：开局不要跳过OP，否则会出bug！！！这个版本应该是V1.0版，没有回想屋，BUG也多。

新中国第一部禁片！怪不得被禁，这劲也忒大了！完整影片：durl.ca/VWeKh

不懂代码也能轻松搞定ChatGPT模型训练同其他软件相连接#抽屉IT