Stability AI 推出 Stable Video Diffusion 模型,可根据图片生成视频

StabilityAI推出StableVideoDiffusion模型,可根据图片生成视频StableVideoDiffusion这款模型能够通过现有图片生成视频,是基于之前发布的StableDiffusion文本转图片模型的延伸,也是目前为止市面上少有的能够生成视频的AI模型之一。不过,这款模型目前并不是对所有人开放的。StableVideoDiffusion目前处于StabilityAI所谓的“研究预览”阶段。想要使用这款模型的人必须同意一些使用条款,其中规定了StableVideoDiffusion的预期应用场景(例如“教育或创意工具”、“设计和其他艺术过程”等)和非预期的场景(例如“对人或事件的事实或真实的表达”)()投稿:@ZaiHuaBot频道:@TestFlightCN

相关推荐

封面图片

Stability AI 发布 Stable Video Diffusion

StabilityAI发布StableVideoDiffusionAI创业公司StabilityAI发布了它的视频生成模型StableVideoDiffusion,源代码采用MITLicense发布在上,权重发布在HuggingFace上。StableVideoDiffusion基于StableDiffusion,有两种输出形式,能以每秒3-30帧的定制帧速生成14和25帧。StabilityAI称其模型的表现好于私有模型。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天,StabilityAI宣布推出StableDiffusionXL1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用,并提供给Stability的和消费者应用程序和。Stability声称,与其前代产品相比,StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。在接受采访时,StabilityAI的应用机器学习负责人JoePenna指出,StableDiffusionXL1.0包含35亿个参数,可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像,但需要更多的计算能力。——、

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告,披露了SD3的更多细节。据他们所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。技术报告要点如下:◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型:使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

封面图片

Stability AI 发布 Stable Video 3D

StabilityAI发布StableVideo3DAI创业公司StabilityAI发布了StableVideo3D,输入一个对象的静态照片生成该对象的3D模型。StableVideo3D有两个版本:SV3D_u和SV3D_p,其中SV3D_u输入单幅图像生成轨道视频,无需相机调节;SV3D_p组合了单幅图像和轨道视图,允许沿着指定相机路径创建3D视频。StableVideo3D的商业使用需要付费,非商业使用可在上下载模型权重(9.37GB)。来源,,频道:@kejiqu群组:@kejiquchat

封面图片

https://stability.ai/news/stable-video-diffusion-open--video-m

https://stability.ai/news/stable-video-diffusion-open-ai-video-model今天,我们发布了稳定视频扩散,这是我们第一个基于图像模型@StableDiffusion的生成人工智能视频的基础模型。作为本研究预览的一部分,代码、权重和研究论文现已提供。此外,今天您可以注册我们的候补名单,以访问即将推出的全新网络体验,该体验具有文本转视频界面。要访问模型并注册我们的候补名单,请访问我们的网站:https://stability.ai/contact

封面图片

Stability AI 宣布 Stable Diffusion 3

StabilityAI宣布StableDiffusion3AI创业公司StabilityAI宣布其最新一代的文本图像模型StableDiffusion3开放预览。感兴趣的用户可以申请加入等候名单。StabilityAI称开放预览是为了在正式发布前收集与性能和安全性相关的用户反馈。StableDiffusion3模型的参数规模从8亿到80亿不等,其架构组合了diffusiontransformer和flowmatching,技术报告将在晚些时候公布。来源,频道:@kejiqu群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人