为什么现在没人提美版可灵sora了,其性能究竟如何?

为什么现在没人提美版可灵sora了,其性能究竟如何? 平凡的回答 不能没人提,而是没什么东西可提的。 OpenAI的Sora在它的分类里面属于Research,意思是还在实验室里,没办法大规模使用。 提出的时间是2024年的2月15号,当时的效果确实非常炸裂。 一时间,world model传的沸沸扬扬,说实话我以为很快会发布公众版,但没想到一直也没有下文。 而快手做的可灵AI视频生成模型,反而悄咪咪的并没有什么特别大的发布会就直接上产品了。 实打实的申请了就能用的产品。 最长能生成3分钟。 你知道这个有多香吗? 国内同类的软件,效果不如可灵,价格起步12刀,想要用的爽点,得28刀。 可灵已经无限制的生成好几天了,别家这项服务一个月76刀,好几百块钱。 AI模型行不行就一个黄金指标,敢不敢开放给公众用。 via 知乎热榜 (author: 平凡)

相关推荐

封面图片

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪) 标签: #快手 #Sora #可灵 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 "从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望,"莫汉周四在接受彭博原创节目主持人艾米莉-张(Emily Chang)的采访时说,"其中一个期望就是要遵守服务条款。 它不允许下载文字稿或视频片段等内容,这明显违反了我们的服务条款。这些就是我们平台上内容的行事规则。"关于 OpenAI 使用什么材料来训练 ChatGPT 和 DALL-E 等流行内容创作产品的人工智能模型,公众一直争论不休。Sora 和其他生成式人工智能工具的工作原理是从网络上吸取各种内容,并将这些数据作为工具生成新内容(包括视频、照片、叙述性文字等)的基础。随着OpenAI、Google等公司竞相开发更强大的人工智能,它们正寻求尽可能多的内容来训练其人工智能模型,以获得更高质量的结果。Google和YouTube是Alphabet公司的子公司。微软公司支持的 OpenAI 没有立即回应置评请求。OpenAI 首席技术官米拉-穆拉提(Mira Murati)上个月在接受《华尔街日报》采访时说,她不确定 Sora 是否是在 YouTube、Facebook 和 Instagram 的用户生成视频上训练出来的。本周,《华尔街日报》援引熟悉此事的人士的话报道称,OpenAI 已经讨论过在转录 YouTube 公开视频的基础上训练其下一代大型语言模型 GPT-5。莫汉说,Google在决定是否使用平台上的视频来训练公司自己的强大人工智能模型"双子座"(Gemini)之前,会遵守 YouTube 与创作者签订的个人合同。"很多创作者在我们的平台上都有不同类型的内容授权合同。他说,虽然"YouTube语料库中的部分内容可能会被用于"训练Gemini等模型,但Google和YouTube会确保将这些视频用作Google人工智能的训练数据"符合该创作者事先签署的服务条款或合同"。 ... PC版: 手机版:

封面图片

快手今天发布了可灵视频生成模型,支持生成最长两分钟 30FPS 1080P 的。

快手今天发布了可灵视频生成模型,支持生成最长两分钟 30FPS 1080P 的视频。 生成质量是现在普通用户能接触到的天花板,5 秒视频这个等级完全超越了谷歌Voe 视频模型。 运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。 体验方法:快影 APP-AI 玩法-AI 视频生成中申请。

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

比赛开始了!Sora对手直呼奥特曼是魔术师 创意行业最先受冲击?

比赛开始了!Sora对手直呼奥特曼是魔术师 创意行业最先受冲击? 根据OpenAI的介绍,通过“一次性为模型提供多帧的预测”,Sora可以生成长达一分钟的视频,并能实现单视频的多角度镜头切换,还能通过“将视频和图像表现为较小数据单位的集合”来获得更广泛的数据,搭建模拟现实世界的逼真模型。虽然还没有向公众开放,由于在AI生成视频时长上成功突破到一分钟,再加上公开演示视频的高度逼真和高质量,Sora立刻引起了轰动。特斯拉CEO埃隆·马斯克(Elon Musk)在X(原推特)平台上感叹“人类愿赌服输(gg humans)”,360集团创始人、董事长兼CEO周鸿祎则预言“AGI(通用人工智能)实现将从10年缩短到1年”。AI视频生成赛道竞争日渐激烈毫无疑问,Sora的出现至少让竞争对手感到了压力。在Sora发布后,AI视频初创公司Runway的CEO克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)便在X平台上发布了两个词:“Game On(比赛开始了)。”AI视频公司Stability AI的CEO埃马德·莫斯塔克(Emad Mostaque)则在X平台上感慨“奥特曼(OpenAI的创始人兼CEO)真是一个魔术师”,并称Sora可以被视为AI视频的GPT3,将在未来几年内得到扩展、细化、调整和优化。自2022年以来,最早的一批文生视频模型都是由Stability AI、Runway和Pika等小型初创公司开发的,而近几个月来,科技巨头们也纷纷宣布将带着自己的模型进入该领域,例如字节跳动的MagicVideo-V2和谷歌的Lumiere。谷歌的Lumiere演示片段。来源:Google Research虽然谷歌和字节跳动发布的演示视频都展现出了质量的飞跃,但它们都没能脱离现有文生视频的一般模式,即输出单一的、通常是静止视角的短视频片段。相比之下,Sora的宣传视频包括变换摄像机角度、电影式剪辑和场景变换,而这一切,都是通过单一提示词生成的。Sora生成的视频能够达到更加逼真的效果。来源:Sora针对Sora如何达成如此惊人的效果,研究者们也展开了分析。在Sora技术报告所引述的32篇论文中,纽约大学助理教授谢赛宁和现任OpenAI工程师的William Peebles在2023年合著的扩散Transformer论文吸引了大家的目光,被视为Sora的研究基础。谢赛宁也连发多条推文推测,Sora或建立在扩散Transformer模型之上,整个Sora模型可能有30亿个参数,数据很可能是Sora成功的最关键因素。虽然OpenAI指出Sora仍存在缺陷,例如难以准确模拟复杂场景的物理特性、无法理解因果关系的具体实例和混淆提示的空间细节,但也在官网上不无骄傲地写道:“Sora为能够理解和模拟真实世界的模型提供了基础,我们相信这一能力将是实现AGI(通用人工智能)的重要里程碑。”招商策略研报认为,OpenAI在训练端与输入端的创新造就了Sora的成功。虽然OpenAI表示当前Sora仍有弱点,但从当前展示的效果来看,Sora显著领先于其他文生视频模型,推动AI视频生成进入了一个全新的时代。有望大幅降低成本,好莱坞行业受冲击?影视圈也从未如此直观地感受到AI带来的威胁与机遇。例如,专注于早期阶段投资的美国旧金山投资人Zak Kukoff在X平台上预测,在五年内,一个不到五人的团队将能够利用文生视频模型和非工会劳动力来制作一部票房收入超过5000万美元的电影。美国权威电影业界期刊《好莱坞报道》(The Hollywood Reporter)猜测,OpenAI将利用Sora“大规模进军好莱坞”:“尽管类似的AI视频工具已经存在,OpenAI的系统体现了该技术的快速增长,可能将会取代大量的劳动力。娱乐业正在努力应对AI,而这一技术将进一步被主流所采纳。”早在Sora之前,AI已经开始影响全球影视行业。行业调查公司CVL Economics在今年1月发布了一项针对300位好莱坞行业领袖的调查,有四分之三的受访者承认,AI工具促进了公司岗位的削减或整合。据估计,在接下来的三年里,将有近20.4万个职位受到AI的不利影响,声音工程师、配音演员和概念艺术家处于向AI转变的前沿,视觉效果和其他后期制作工作也很容易受到影响。有科技媒体指出,在好莱坞,单个场景的制作成本可能高达数百万美元,Sora可能成为制片人的新选择,一种更为经济型的替代品,例如重现滑铁卢战役,不需要昂贵的特效或者专门设计拍摄场景,“Sora的魅力在于它能够培养创造力。导演可以尝试不同的美学或场景,而无需承担与传统制作相关的财务风险。促进了创新,为以前仅限于想象力的叙事和视觉风格打开了大门……数字艺术家可以让技能多元化,但也应该适应这种将永远改变游戏规则的新范式。”不过,由于可能使用受版权保护的内容和生成视频时长较短等问题,AI生成视频工具在影视业的使用依然受到局限。许多艺术家也要求OpenAI公开Sora的训练数据,怀疑其有使用版权保护内容的嫌疑。曾为多部漫威影片工作过的概念艺术家卡拉·奥尔蒂斯(Karla Ortiz)指出,大模型需要海量的训练数据来进行学习,隐藏数据来源是一种逃避社会责任的行为。而在影视业之前,相对较为不看重视频内容的广告业已经受到了AI生成视频工具的显著冲击。据统计,在美国洛杉矶,自2018年以来,商业广告的拍摄量已经出现持续大幅下降,如果排除因疫情而停止大部分制作的2020年,其在2023年已经降至七年最低点。一旦Sora正式开放使用,想必将会进一步推动广告业向AI转型。是破局者,还是破坏者?除了版权问题以外,和所有其他AI工具一样,Sora过于逼真的视频表现也带来了一些对于伪造和传播虚假内容的忧虑。在充斥着虚假信息的互联网,深度造假(Deepfake)的道德问题早已成为了关注焦点。就在今年1月,由AI生成的美国知名歌手泰勒·斯威夫特(Taylor Swift)的虚假露骨照片在社交媒体上疯传,短时间内浏览量飙升至上千万,一时惊动美国白宫。白宫新闻发言人卡里娜·让-皮埃尔(Karine Jean-Pierre)警告称,AI生成照片的传播“令人担忧”。由于来不及删除这些有害图片,X平台一度封锁了对斯威夫特的相关搜索。而一旦照片变成视频,人们将更加难以分辨真伪。OpenAI也考虑到了模型安全性方面的潜在风险,称其计划与一个专家团队合作测试最新模型,密切关注错误信息、仇恨内容和偏见等。OpenAI还表示其正在开发帮助检测误导性信息的工具,比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示,例如极端暴力、性内容、仇恨图像、名人肖像等。但在Sora被正式公开之前,我们都无从得知这些约束条件的具体效果如何。此外,AI技术的复杂性也意味着需要大量金钱和算力资源投入,可能会将权力进一步集中在少数资本或技术寡头身上。不管是好是坏,Sora都标志着更先进的AI视频浪潮的出现,而这股浪潮或许终将颠覆包括影视、广告乃至游戏和艺术在内的整个创意产业。 ... PC版: 手机版:

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人