剑指 Sora：Picsart AI 团队联合发布 StreamingT2V 模型，可生成 1200 帧 2 分钟视频

剑指Sora：PicsartAI团队联合发布StreamingT2V模型，可生成1200帧2分钟视频PicsartAIResarch等团队联合发布了StreamingT2V，可以生成长达1200帧、时长为2分钟的视频，同时质量也很不错。并且，作者表示，两分钟并不是模型的极限，就像之前Runway的视频可以延长一样，StreamingT2V理论上可以做到无限长。同时，作为开源世界的强大组件，StreamingT2V可以无缝兼容SVD和animatediff等模型。不但比Sora长，而且免费开源！论文地址：https://arxiv.org/pdf/2403.14773.pdfDemo试用：https://huggingface.co/spaces/PAIR/StreamingT2V开源代码：https://github.com/Picsart-AI-Research/StreamingT2V频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

重磅： Open AI 正式推出文生视频模型 Sora

重磅：OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临，OpenAI目前提供的情报，所揭示的一些惊人能力：-Sora根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。）-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验，它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的；换句话说，Sora理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界）-Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤：OpenA正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由Sora生成的。OpenAI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候，Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到OpenAI描述的野心：「Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

生数科技联合清华发布视频大模型Vidu 全面对标Sora

生数科技联合清华发布视频大模型Vidu全面对标Sora据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。...PC版：https://www.cnbeta.com.tw/articles/soft/1428888.htm手机版：https://m.cnbeta.com.tw/view/1428888.htm

国产文生视频大模型 “筑梦” 亮相：在生成能力、时长、质量上与 Sora 还存在差距

国产文生视频大模型“筑梦”亮相：在视频生成能力、时长、质量上与Sora还存在差距在日前举行的中国首部AI动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式上，上海人工智能实验室研发的文生视频大模型“书生・筑梦”亮相。这个AI模型已经开源，授权用户单位免费商用。它的参数量超过30亿，可根据输入的提示词生成有故事性、含多镜头的分钟级视频，具有转场流畅、故事连贯、画质高清等特点。上海人工智能实验室领军科学家林达华说，“由于数据、算力等资源限制，‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。”（解放日报）

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测近日，快手“可灵”视频生成大模型官网正式上线。据介绍，可灵大模型为快手AI团队自研，基于快手在视频技术方面的多年积累，采用Sora相似的技术路线，结合多项自研技术创新，效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力，还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p，时长最高可达2分钟（帧率30fps），且支持自由的宽高比。目前，可灵大模型已在快影App开放邀测体验。（36氪）标签:#快手#Sora#可灵频道:@GodlyNews1投稿:@GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人