Diffusers 提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。

Diffusers提供跨多种模态（例如视觉和音频）的预训练扩散模型，并用作扩散模型推理和训练的模块化工具箱。Diffusers提供了以下能力：最先进的扩散管道，只需几行代码即可在推理中运行。可以互换使用的各种噪声调度程序，用于在推理中进行首选速度与质量权衡。多种类型的模型，例如UNet，可以用作端到端扩散系统中的构建块。训练示例以展示如何训练最流行的扩散模型。推理示例，展示如何为image2image、in-painting等高级任务创建自定义管道

在Telegram中查看

相关推荐

苹果发布 OpenELM 大语言模型，基于开源训练和推理框架的语言模型

苹果发布OpenELM大语言模型，基于开源训练和推理框架的语言模型在WWDC24之前，苹果在HuggingFace平台上发布了一个“具有开源训练和推理框架的高效语言模型”，名为OpenELM。苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的checkpoint和训练日志，以促进开源研究。其源码及预训练的模型权重和训练配方可在苹果Github库中获取。

通过4bit量化的模型压缩，OPPO的AlBoost推理引擎优化，以及与芯片厂家联合深度优化等多项举措，让70亿参数大模型真正地

通过4bit量化的模型压缩，OPPO的AlBoost推理引擎优化，以及与芯片厂家联合深度优化等多项举措，让70亿参数大模型真正地装进手机，并实现内存和存储空间的进一步优化，为端侧AI的性能与精度实现更好平衡。OPPO自主训练的大模型——AndesGPT，具有“个性专属、对话增强、端云协同”三大技术特征。坚持端云协同部署的AndesGPT，覆盖十亿至千亿以上多种不同参数规模，可通过分工、互补、协作的方式，根据不同场景的用户需求实现智能调度。通过独创的SwappedAttention技术，AndesGPT还解决了长期记忆带来首字推理延迟问题。

【文章推荐】Deep Mind 研究科学家Sander Dieleman写的关于《扩散模型蒸馏的悖论》。##ai画图#

【文章推荐】DeepMind研究科学家SanderDieleman写的关于《扩散模型蒸馏的悖论》。特别关注了各种形式的蒸馏方法，这是通过用一个模型（学生）的预测结果受到另一个模型（教师）的监督来训练新模型的做法。这些蒸馏方法为扩散模型带来了极其引人注目的结果。详细解释了为什么扩散模型需要多个步骤才能获得好的结果，以及如何通过各种方法减少这些步骤而不会太大程度上损害输出质量。还探讨了多种扩散采样算法，这些算法旨在更快地通过输入空间移动并减少达到一定输出质量所需的采样步骤数量。文章链接：

BiLLa: 开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了理解和推理能

:开源的中英双语LLaMA模型，具有增强的推理能力。通过扩充中文词表和利用任务型数据进行训练，提升了中文理解和推理能力。在评测中，BiLLa在中英语言建模和推理任务上表现出色，优于其他模型，并与ChatGLM-6B相比在解题和代码得分方面更高。开发者可以使用BiLLa-7B-LLM和BiLLa-7B-SFT模型，并可通过提供的工具进行模型权重的还原和使用。评测结果显示，BiLLa在语言建模和各种问题类型上取得了良好的性能

剑桥、腾讯AI Lab等提出大语言模型PandaGPT：一个模型统一六种模态

剑桥、腾讯AILab等提出大语言模型PandaGPT：一个模型统一六种模态项目主页:https://panda-gpt.github.io/代码:https://github.com/yxuansu/PandaGPT论文:http://arxiv.org/abs/2305.16355线上Demo展示:https://huggingface.co/spaces/GMFTBY/PandaGPT为了实现图像&视频、文本、音频、热力图、深度图、IMU读数六种模态下的指令跟随能力，PandaGPT将ImageBind的多模态编码器与Vicuna大型语言模型相结合（如上图所示）。为了使ImageBind的多模态编码器和Vicuna的大型语言模型的特征空间对齐，PandaGPT使用了组合LLaVa和Mini-GPT4发布的共160k基于图像的语言指令跟随数据作为训练数据。每个训练实例包括一张图像和相应一组多轮对话。为了避免破坏ImageBind本身的多模态对齐性质和减少训练成本，PandaGPT只更新了以下模块：在ImageBind的编码结果上新增一个线性投影矩阵，将ImageBind生成的表示转换后插入到Vicuna的输入序列中；在Vicuna的注意力模块上添加了额外的LoRA权重。两者参数总数约占Vicuna参数的0.4%。训练函数为传统的语言建模目标。值得注意的是，训练过程中仅对模型输出对应部分进行权重更新，不对用户输入部分进行计算。整个训练过程在8×A100(40G)GPUs上完成训练需要约7小时。值得强调的是，目前的PandaGPT版本只使用了对齐的图像-文本数据进行训练，但是继承了ImageBind编码器的六种模态理解能力（图像/视频、文本、音频、深度度、热量图和IMU）和它们之间的对齐属性，从而具备在所有模态之间跨模态能力。在实验中，作者展示了PandaGPT对不同模态的理解能力，包括基于图像/视频的问答，基于图像/视频的创意写作，基于视觉和听觉信息的推理等等，下面是一些例子：图像：音频：视频：与其他多模态语言模型相比，PandaGPT最突出的特点是它能够理解并将不同模态的信息自然地组合在一起。视频+音频：图像+音频：总结作者们也总结了目前PandaGPT的诸多问题以及未来的发展方向。尽管PandaGPT在处理多种模态及其组合方面具有惊人的能力，但仍有多种方法可以极大程度的提升PandaGPT的性能。PandaGPT可以通过使用其他模态对齐数据来进一步提升图像以外模态的理解能力，例如利用ASR和TTS数据来进行音频-文本模态的模态理解和指令跟随能力。文本以外的其他模态仅仅使用了一个embedding向量进行表示，导致语言模型无法理解文本之外模型的细粒度信息。更多关于细粒度特征提取的研究，如跨模态注意力机制，可能有助于提高性能。PandaGPT目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个AIGC统一到同一个模型之中，即一个模型同时完成图像&视频生成、语音合成、文本生成等任务。需要新的基准测试来评估多模态输入的组合能力。PandaGPT还可能表现出现有语言模型的一些常见缺陷，包括幻觉、毒性和刻板印象。最后，作者们强调，PandaGPT仅仅是一个研究原型，暂时还不足以直接应用于生产环境。...PC版：https://www.cnbeta.com.tw/articles/soft/1363375.htm手机版：https://m.cnbeta.com.tw/view/1363375.htm

苹果推出 300 亿参数 MM1 多模态 AI 大模型，可识别图像推理自然语言

苹果公司旗下研究团队近日在 ArXiv 中公布了一篇名为《MM1：Methods， Analysis&InsightsfromMultimodalLLMPre-training》的论文，其中介绍了一款“MM1”多模态大模型，该模型提供 30亿、70亿、300亿三种参数规模，拥有图像识别和自然语推理能力。苹果研究团队相关论文主要是利用MM1 模型做实验，通过控制各种变量，找出影响模型效果的关键因素。研究表明，图像分辨率和图像标记数量对模型性能影响较大，视觉语言连接器对模型的影响较小，不同类型的预训练数据对模型的性能有不同的影响。据介绍，研究团队首先在模型架构决策和预训练数据上进行小规模消融实验。之后利用混合专家（MixtureofExperts）架构及一种名为Top-2Gating的方法构建了MM1模型，号称不仅在预训练指标中实现了最好的性能表现，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。研究人员对“MM1”模型进行了测试，号称 MM1-3B-Chat 和 MM1-7B-Chat 优于市面上绝大多数相同规模的模型。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA、MMBench、MMMU 和MathVista中表现尤为突出，但是整体表现不如谷歌的Gemini和OpenAI的GPT-4V。ArXiv论文地址：https://arxiv.org/pdf/2403.09611.pdfvia匿名标签:#Apple#AI#MM1频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人