Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。

Diffusers 提供跨多种模态(例如视觉和音频)的预训练扩散模型,并用作扩散模型推理和训练的模块化工具箱。 Diffusers 提供了以下能力: 最先进的扩散管道,只需几行代码即可在推理中运行。 可以互换使用的各种噪声调度程序,用于在推理中进行首选速度与质量权衡。 多种类型的模型,例如 UNet,可以用作端到端扩散系统中的构建块。 训练示例以展示如何训练最流行的扩散模型。 推理示例,展示如何为 image2image、in-painting 等高级任务创建自定义管道

相关推荐

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

封面图片

OpenAI正在开发新推理技术模型 代号草莓

OpenAI正在开发新推理技术模型 代号草莓 根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。消息人士称,该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠的浏览互联网,从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生幻觉,产生虚假信息。路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示,在人工智能领域最重要的进步领域将是推理能力。其他公司,如Google、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行后训练,或者在对大量通用数据进行训练后,对基础模型进行调整,以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。古德曼说:我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在CUA(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版: 手机版:

封面图片

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到

:大语言模型裁剪工具。通过对大语言模型的冗余词表进行裁剪,减少模型参数量,降低显存占用,提升训练速度,并且能够保留预训练中学习到的知识。 大语言模型(LLM, Large Language Model)犹如雨后春笋般,其虽然效果惊艳,但参数量巨大,让普通玩家望而却步。 如今的大语言模型大多为多语种大预言模型(Multilingual Large Language Model),如LLaMA、mT5、Bloom等,其词表规模巨大,占据非常大部分的模型参数,如Bloom具有25万词表。 在训练模型时,词表权重将会消耗非常大的显存,降低训练速度,产生OOM的现象。 但在许多下游任务中,一般只会用到一两种语言,例如在中文场景中,一般只会用到中英文。 我们可以对大语言模型的词表进行裁剪,只留下所需的部分,这样不仅能够充分保留模型的预训练知识,并且能够使用更少的显卡进行下游任务的finetune,提升训练效率。 | #工具

封面图片

: 开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了理解和推理能力。

: 开源的中英双语LLaMA模型,具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练,提升了中文理解和推理能力。 在评测中,BiLLa在中英语言建模和推理任务上表现出色,优于其他模型,并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型,并可通过提供的工具进行模型权重的还原和使用。评测结果显示,BiLLa在语言建模和各种问题类型上取得了良好的性能

封面图片

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快

Snap Video 一种基于transformer的视频生成模型架构,其训练速度比 U-Net 快 3.31 倍(推理速度约快 4.5 倍)。 这个架构可以高效训练一个包含数十亿参数的文本到视频模型。(arxiv 的 PDF 转 HTML 居然又好了) 项目地址:

封面图片

狡猾的人工智能模型故意破坏训练图像以规避版权问题

狡猾的人工智能模型故意破坏训练图像以规避版权问题 Ambient Diffusion 是一种文本到图像的人工智能模型,它通过使用严重破坏的图像来保护艺术家的版权。文本到图像生成器的一个大问题是,它们能够复制用来训练它们的原创作品,从而侵犯艺术家的版权。根据美国法律,如果你创作了原创作品并将其"固定"为有形的形式,你就拥有了它的版权字面意思是复制它的权利。在大多数情况下,未经创作者授权,不得使用受版权保护的图片。今年5 月,Google母公司 Alphabet 遭到一群艺术家的集体版权诉讼,声称Google未经许可使用了他们的作品来训练其人工智能图像生成器 Imagen。Stability AI、Midjourney 和 DeviantArt(它们都使用了 Stability 的 Stable Diffusion 工具)也面临着类似的诉讼。为了避免这个问题,德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架,该框架只对已损坏到无法识别的图像进行训练,从而消除了人工智能记忆和复制原创作品的可能性。扩散模型是一种先进的机器学习算法,它通过向数据集逐步添加噪声来生成高质量的数据,然后学习逆转这一过程。最近的研究表明,这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子:人工智能需要接受 X 光扫描训练,但不能记住特定病人的图像,否则就会侵犯病人的隐私。为了避免这种情况,模型制作者可以引入图像损坏。研究人员利用他们的环境扩散框架证明,只需使用高度损坏的样本,就能训练扩散模型生成高质量的图像。根据"干净"(左)和损坏(右)的训练图像生成的环境扩散输出结果上图显示了在使用损坏时图像输出的差异。研究人员首先用 CelebA-HQ 高质量名人图片数据库中的 3000 张"干净"图片对模型进行了训练。根据提示,该模型生成的图像与原图几乎完全相同(左图)。然后,他们使用 3000 张高度损坏的图像对模型进行了重新训练,其中多达 90% 的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生,但结果却大相径庭(右图)。UT奥斯汀分校计算机科学教授亚当-克里万斯(Adam Klivans)是这项研究的共同作者,他表示:"从黑洞成像到某些类型的核磁共振成像扫描,基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"与现有的文本到图像生成器一样,其结果并非每次都完美无缺。关键是,艺术家们知道像 Ambient Diffusion 这样的模型不会记住并复制他们的原创作品,就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗?不会,但这就是法院的职责所在。研究人员已将他们的代码和环境扩散模型开源,以鼓励进一步的研究。可在GitHub 上查阅。该研究发表在预印本网站arXiv 上。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人