Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力：最先进的扩散管道，只需几行代码即可在推理中运行。可以互换使用的各种噪声调度程序，用于在推理中进行首选速度与质量权衡。多种类型的模型，例如 UNet，可以用作端到端扩散系统中的构建块。训练示例以展示如何训练最流行的扩散模型。推理示例，展示如何为 image2image、in-painting 等高级任务创建自定义管道

在Telegram中查看

相关推荐

TencentPretrain：腾讯预训练模型框架

TencentPretrain：腾讯预训练模型框架预训练已经成为人工智能技术的重要组成部分，为大量人工智能相关任务带来了显著提升。TencentPretrain是一个用于对文本、图像、语音等模态数据进行预训练和微调的工具包。TencentPretrain遵循模块化的设计原则。通过模块的组合，用户能迅速精准的复现已有的预训练模型，并利用已有的接口进一步开发更多的预训练模型。通过TencentPretrain，我们建立了一个模型仓库，其中包含不同性质的预训练模型（例如基于不同模态、编码器、目标任务）。用户可以根据具体任务的要求，从中选择合适的预训练模型使用。TencentPretrain继承了的部分工作，并在其基础上进一步开发，形成支持多模态的预训练模型框架。 TencentPretrain有如下几方面优势: 可复现 TencentPretrain已在许多数据集上进行了测试，与原始预训练模型实现（例如BERT、GPT-2、ELMo、T5、CLIP）的表现相匹配模块化 TencentPretrain使用解耦的模块化设计框架。框架分成Embedding、Encoder、Target等多个部分。各个部分之间有着清晰的接口并且每个部分包括了丰富的模块。可以对不同模块进行组合，构建出性质不同的预训练模型多模态 TencentPretrain支持文本、图像、语音模态的预训练模型，并支持模态之间的翻译、融合等操作模型训练 TencentPretrain支持CPU、单机单GPU、单机多GPU、多机多GPU训练模式，并支持使用DeepSpeed优化库进行超大模型训练模型仓库我们维护并持续发布预训练模型。用户可以根据具体任务的要求，从中选择合适的预训练模型使用 SOTA结果 TencentPretrain支持全面的下游任务，包括文本/图像分类、序列标注、阅读理解、语音识别等，并提供了多个竞赛获胜解决方案预训练相关功能 TencentPretrain提供了丰富的预训练相关的功能和优化，包括特征抽取、近义词检索、预训练模型转换、模型集成、文本生成等 ||#框架

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。该框架采用MLLM作为全局规划器，将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外，在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑，从而增强了泛化能力。大量实验证明，RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地，RPG框架与各种MLLM架构（例如MiniGPT-4）和扩散骨干（例如ControlNet）兼容性广泛。需求人群： "RPG-DiffusionMaster可用于文本到图像生成和编辑，特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例：使用RPG-DiffusionMaster生成包含多个对象的图像利用RPG-DiffusionMaster编辑图像以实现文本语义对齐采用RPG-DiffusionMaster进行文本到图像生成的实验产品特色：利用多模态LLM进行全局规划将复杂图像生成过程分解为简单生成任务实现区域化的组合生成闭环集成文本引导的图像生成和编辑提高泛化能力优于其他文本到图像扩散模型 | #框架

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到

：大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪，减少模型参数量，降低显存占用，提升训练速度，并且能够保留预训练中学习到的知识。大语言模型(LLM, Large Language Model)犹如雨后春笋般，其虽然效果惊艳，但参数量巨大，让普通玩家望而却步。如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model)，如LLaMA、mT5、Bloom等，其词表规模巨大，占据非常大部分的模型参数，如Bloom具有25万词表。在训练模型时，词表权重将会消耗非常大的显存，降低训练速度，产生OOM的现象。但在许多下游任务中，一般只会用到一两种语言，例如在中文场景中，一般只会用到中英文。我们可以对大语言模型的词表进行裁剪，只留下所需的部分，这样不仅能够充分保留模型的预训练知识，并且能够使用更少的显卡进行下游任务的finetune，提升训练效率。 | #工具

OpenAI正在开发新推理技术模型代号草莓

OpenAI正在开发新推理技术模型代号草莓根据路透社 5 月份看到的一份 OpenAI 内部文件副本，OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期，该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划，称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示，即使在 OpenAI 内部，Strawberry 的工作原理也是一个严格保密的秘密。消息人士称，该文件描述了一个使用 Strawberry 模型的项目，目的是使公司的人工智能不仅能够生成查询的答案，而且能够提前规划，自主可靠的浏览互联网，从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访，这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时，OpenAI 公司发言人在一份声明中表示：我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法，大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*，路透社去年报道称，该项目在公司内部已被视为一项突破。两位消息人士称，今年早些时候，他们观看了 OpenAI 工作人员告诉他们 Q* 演示，该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道，周二，OpenAI 在一次内部全体会议上展示了一项研究项目的演示，该项目声称拥有新的类似人类的推理技能，OpenAI 发言人证实了此次会面，但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示，OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力，并补充说，Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示，推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本，并以比人类快得多的速度撰写优美的散文，但该技术往往无法解决常识性问题，而这些问题的解决方案对人类来说似乎是直观的，例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时，它经常会产生幻觉，产生虚假信息。路透社采访的人工智能研究人员普遍认为，在人工智能的背景下，推理涉及形成一个模型，使人工智能能够提前规划，反映物理世界的运作方式，并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键，包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示，在人工智能领域最重要的进步领域将是推理能力。其他公司，如Google、Meta 和微软，也在尝试不同的技术来提高人工智能模型的推理能力，大多数进行人工智能研究的学术实验室也是如此。然而，研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如，现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称，Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标，但没有说明如何实现。据四位听过该公司宣传的人士透露，近几个月来，该公司一直在私下向开发者和其他外部人士发出信号，称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名，因为他们无权谈论私人事务。一位消息人士称，Strawberry 采用了一种特殊的方式，即对 OpenAI 的生成式 AI 模型进行后训练，或者在对大量通用数据进行训练后，对基础模型进行调整，以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法，这是当今几乎所有语言模型都采用的一种方法，它有多种形式，例如让人类根据模型的响应向模型提供反馈，并为其提供好答案和坏答案的例子。一位知情人士称，Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社，STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平，理论上可以用来让语言模型超越人类水平的智能。古德曼说：我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展，我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系，对 Strawberry 也不熟悉。该文件称，OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT)，指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务，第一位消息人士解释说。根据 OpenAI 内部文件，OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容，也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法，OpenAI 特别希望其模型能够利用这些功能进行研究，在CUA（即计算机使用代理）的帮助下自主浏览网页，并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版：手机版：

: 开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了理解和推理能力。

: 开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了中文理解和推理能力。在评测中，BiLLa在中英语言建模和推理任务上表现出色，优于其他模型，并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型，并可通过提供的工具进行模型权重的还原和使用。评测结果显示，BiLLa在语言建模和各种问题类型上取得了良好的性能

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快

Snap Video 一种基于transformer的视频生成模型架构，其训练速度比 U-Net 快 3.31 倍（推理速度约快 4.5 倍）。这个架构可以高效训练一个包含数十亿参数的文本到视频模型。（arxiv 的 PDF 转 HTML 居然又好了）项目地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人