中国团队发布视频大模型Vidu 称达到Sora级别

中国团队发布视频大模型Vidu称达到Sora级别中国科研团队在一场未来人工智能先锋论坛上，发布视频大模型Vidu，称它达到了Sora级别。据中国新闻网报道，清华大学联合生数科技星期六（4月27日）在2024中关村论坛年会未来人工智能先锋论坛上，正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。该模型采用团队原创的Diffusion与Transformer融合的核心技术架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora今年2月发布推出之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。清华大学教授、生数科技首席科学家朱军在论坛上说，与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军说：“值得一提的是，Vidu采用的是‘一步到位’的生成方式。Vidu的命名不仅谐音‘Vedio’，也蕴含‘Wedo’的寓意。”2024年4月28日9:04PM

在Telegram中查看

相关推荐

生数科技发布中国首个 Sora 级视频模型 Vidu

生数科技发布中国首个Sora级视频模型ViduVidu由生数科技与清华大学联合推出，采用Diffusion与Transformer融合架构U-ViT，支持生成长度16秒、分辨率1080P的视频。该模型不仅能够模拟物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。清华大学教授、生数科技首席科学家朱军表示，自今年2月Sora发布推出后，团队基于长期积累的经验，在短短两个月进一步突破长视频处理的关键技术。Vidu之所以能够达到这样的效果，是因为其技术路线正好与Sora高度一致。关注频道@TestFlightCN

生数科技联合清华发布视频大模型Vidu 全面对标Sora

生数科技联合清华发布视频大模型Vidu全面对标Sora据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。...PC版：https://www.cnbeta.com.tw/articles/soft/1428888.htm手机版：https://m.cnbeta.com.tw/view/1428888.htm

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了！#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频，图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示，15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva：https://vivago.ai/video?type=1

重磅： Open AI 正式推出文生视频模型 Sora

重磅：OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临，OpenAI目前提供的情报，所揭示的一些惊人能力：-Sora根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。）-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验，它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的；换句话说，Sora理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界）-Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤：OpenA正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由Sora生成的。OpenAI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候，Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到OpenAI描述的野心：「Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

国产 “Sora” 火了，机构看好的多模态 AI 股出炉

国产“Sora”火了，机构看好的多模态AI股出炉4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，清华大学联合生数科技正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。今年年初，OpenAI发布Sora爆火后，掀起了全球竞逐AI视频生成的热潮，也让外界对大模型的关注焦点从单模态转向多模态。而Vidu的发布，则是国内首个具备“长时长、高一致性、高动态性”等特点的视频大模型。从概念股业绩数据来看，75只已出2023年年报的多模态AI概念中，33股实现业绩增长或扭亏，其中大华股份、云鼎科技、浙文互联、洲明科技、万兴科技、盛视科技2023年业绩翻倍增长，利欧股份、新大陆、佳都科技、千方科技等扭亏为盈。概念股中，机构关注度居前的是芒果超媒、恒生电子、中科创达，均有30家及以上券商研报覆盖。根据5家以上机构一致预测，12只概念股今明两年净利润增速均有望超30%。其中中科创达、洲明科技、广联达年内回撤幅度超30%。（数据宝）

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人