腾讯混元文生图模型开源 采用Sora同架构

腾讯混元文生图模型开源 采用Sora同架构 5月14日,腾讯宣布旗下混元文生图模型升级并开源,参数量15亿,目前已在平台及上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局,采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍,混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型,综合指标在文生图算法中排名第三。

相关推荐

封面图片

腾讯混元文生图大模型(混元 DiT)宣布开源小显存版本,仅需 6G 显存即可运行,该版本与 LoRA、ControlNet 等插

腾讯混元文生图大模型(混元 DiT)宣布开源小显存版本,仅需 6G 显存即可运行,该版本与 LoRA、ControlNet 等插件,都已适配至 Diffusers 库;并新增对 Kohya 图形化界面的支持,让开发者可以低门槛地训练个性化 LoRA 模型;同时,混元 DiT 模型升级至 1.2 版本,在图片质感与构图方面均有所提升。此外,腾讯宣布混元文生图打标模型” 混元 Captioner“正式对外开源。(36 氪)

封面图片

百度回应文心一言文生图争议:能力来自开源模型,符合行业惯例

百度回应文心一言文生图争议:能力来自开源模型,符合行业惯例 百度 今日针对 文心一言 文生图功能的相关反馈发布声明称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型 ERNIE-ViLG。 甩锅开源模型

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

封面图片

腾讯混元大模型宣布全面降价 混元-lite即日起免费

腾讯混元大模型宣布全面降价 混元-lite即日起免费 混元-standard API输入价格从0.01元/千tokens降至0.0045元/千tokens ,下降55%,API输出价格从0.01元/千tokens降至0.005元/千tokens,下降50%。新上线的混元-standard-256k,具备处理超过38万字符的超长文本能力,API输入价格下调至0.015元/千tokens,下降87.5%,API输出价格下降至0.06元/千tokens,下降50%。最高配置万亿参数模型混元-pro,API输入价格从0.1元/千tokens降至0.03元/千tokens,降幅达70%。以上价格调整立即生效。同时,为了更好地服务开发者,一站式智能体创作与分发平台腾讯元器,也全面升级了模型资源扶持方案:用户不仅可以将专属AI智能体一键分发至腾讯全域渠道,获取免费的混元大模型资源和流量扶持,同时也可将智能体以API形式分发和部署至各类场景,免费token额度从此前的100万提升至1亿。 ... PC版: 手机版:

封面图片

腾讯混元推出256k长文模型,通过腾讯云向企业和个人开发者开放

腾讯混元推出256k长文模型,通过腾讯云向企业和个人开发者开放 近日,腾讯混元大模型正式对外发布256k长文模型,并通过腾讯云向广大企业和个人开发者开放,以支持更广泛的创新和应用。 据介绍,腾讯混元256k模型版本具备处理超过38万字符的超长文本能力。在对话应用场景中,该模型能够“记忆”更多的对话内容,有效避免“忘记”信息等问题。此外,它还具备出色的上下文分析能力。(36氪) 标签: #腾讯 #混元 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

字节发布文生图开放模型SDXL-Lightning

字节发布文生图开放模型SDXL-Lightning 界面新闻从知情人士处获悉,字节发布文生图开放模型 SDXL-Lightning。据知情人士透露,字节跳动的 SDXL-Lightning 通过渐进式对抗蒸馏的技术,实现前所未有的生成速度。该模型能够在2步或4步内生成极高质量和分辨率的图像,将生成速度加快十倍,是1024分辨率下速度最快的文生图模型,计算成本则降低为十分之一。该模型已经在 AI 开源社区 Hugging Face 上公开,跻身模型趋势榜,同时也成为 Hugging Face Spaces 上的热门模型。 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人