:用于训练和采样扩散模型的简单易读的代码库,支持从最简单的玩具模型到最先进的预训练模型的实验,核心代码只有不到100行非常易读的

None

相关推荐

封面图片

Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力: 最先进的扩散管道,只需几行代码即可在推理中运行。 可以互换使用的各种噪声调度程序,用于在推理中进行首选速度与质量权衡。 多种类型的模型,例如 UNet,可以用作端到端扩散系统中的构建块。 训练示例以展示如何训练最流行的扩散模型。 推理示例,展示如何为 image2image、in-painting 等高级任务创建自定义管道

封面图片

StarCoder,来自 huggingface,最先进的代码大语言模型。超过其他开源产品和CloseAI水平。

StarCoder,来自 huggingface,最先进的代码大语言模型。超过其他开源产品和CloseAI水平。 - 8k 上下文 - 不仅可以编程还可以作为技术助手解答问题 - 只有15B参数,效果却超过了很多大参数模型,见图 官方介绍页面

封面图片

:基于文本条件的扩散概率模型,能生成高保真音频,适用于文本到音频的生成任务,提供预训练模型和开源实现

封面图片

是一种代码大语言模型,旨在理解和生成跨多种编程语言的代码,提供最先进的代码补全、理解、生成等能力

封面图片

:更好的通用预训练语言模型

:更好的通用预训练语言模型 Pile-T5通过在Pile数据集上预训练T5模型,并使用LLAMA分词器,改进了原始T5的编码能力。 Pile-T5总体上明显优于原始T5v1.1模型,尤其在代码任务上的提升更大。这主要得益于Pile中包含代码数据以及LLAMA分词器包含编程常用字符。 在多个下游任务的微调中,Pile-T5不同规模的模型表现优异,如在SuperGLUE、CodeXGLUE、MMLU和BigBench Hard上的结果。 尽管与专门微调的Flan-T5相比略逊色,但Pile-T5仍优于T5v1.1,表明其预训练质量更高,更适合多任务微调。 公开了Pile-T5模型在不同训练步长的中间检查点,这有利于模型演化和解释性研究。 Pile-T5 Large模型在某些任务上的表现不佳,可能存在bug,用户需谨慎使用。

封面图片

:用于生成程序代码的大型语言模型

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人