StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像，并且可以扩展到视频生成，为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响，并且鼓励用户负责任地使用该工具。使用场景示例：使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频，展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色：一致自注意力机制：生成长序列中的角色一致图像。运动预测器：在压缩的图像语义空间中预测运动，实现更大的运动预测。漫画生成：利用一致自注意力机制生成的图像，无缝过渡创建视频。图像到视频的生成：提供用户输入的条件图像序列来生成视频。两阶段长视频生成：结合两个部分生成非常长且高质量的AIGC视频。条件图像使用：图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成：提供快速的视频生成结果。

在Telegram中查看

相关推荐

AtomoVideo：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的视频主要功能：1、高保真视频生成：AtomoVideo可以从单一静态图像生成高保真的视频序列，视频中的内容不仅与原始图片保持高度一致，而且动作自然流畅。2、动作强度和连贯性：AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑，没有突兀或不自然的过渡。为了让视频里的动作看起来自然，AtomoVideo引入了时间卷积和时间注意力模块，这些模块专门处理视频帧之间的时间关系，帮助模型预测下一帧画面的变化，从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息，让图片中的物体像在真实世界那样随时间移动和变化。3、个性化适配：AtomoVideo能够与不同的个性化文本到图像（T2I）模型兼容，无需进行特定调整，这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如，你给它一张静态的海边图片，并告诉它“海浪轻轻拍打沙滩”，它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了！#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频，图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示，15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva：https://vivago.ai/video?type=1

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了，不过看起来是最重要的一个，演示的质量非常高，运动幅度和一致性表现

LUMIERE这是谷歌这段时间发布的第三个视频生成模型了，不过看起来是最重要的一个，演示视频的质量非常高，运动幅度和一致性表现都很好。整个模型的能力非常全面，除了视频生成之外支持各种视频编辑和生成控制能力。支持各种内容创建任务和视频编辑应用程序，包括图像到视频、视频修复和风格化生成。详细介绍：Lumiere——一款将文本转换为视频的先进模型，它专门用于制作展现真实、多样化及连贯动态的视频，这在视频合成领域是一大挑战。为了实现这一目标，我们采用了一种创新的空间-时间U-Net架构（Space-TimeU-Netarchitecture）。这种架构能够在模型中一次性完成整个视频时长的生成，这与传统视频模型不同。传统模型通常是先合成关键的远程帧，然后通过时间上的超级分辨率技术来处理，这种方法往往难以保持视频的全局时间连贯性。Lumiere通过在空间和关键的时间维度进行上下采样，并利用预先训练好的文本到图像扩散模型（text-to-imagediffusionmodel），使我们的模型能够直接生成全帧率、低分辨率的视频，并且在多个空间-时间尺度上进行处理。我们展现了该模型在将文本转换成视频方面的领先成果，并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务，包括将图像转换为视频、视频修补和风格化视频创作。项目地址：https://lumiere-video.github.io/Invalidmedia:

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址：https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类，通过生成一系列图像，并将它们嵌入到语义空间中，使用聚类算法将这些图像分组，每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像，从而确定角色的主要视觉特征。接下来是身份提取，一旦确定了一组具有高内聚性的图像，就会在这些图像上训练模型，以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征，以便在未来的生成中更准确地重现这些特征。...PC版：https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版：https://m.cnbeta.com.tw/view/1398313.htm

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人