为什么现在没人提美版可灵sora了,其性能究竟如何?

为什么现在没人提美版可灵sora了,其性能究竟如何? 平凡的回答 不能没人提,而是没什么东西可提的。 OpenAI的Sora在它的分类里面属于Research,意思是还在实验室里,没办法大规模使用。 提出的时间是2024年的2月15号,当时的效果确实非常炸裂。 一时间,world model传的沸沸扬扬,说实话我以为很快会发布公众版,但没想到一直也没有下文。 而快手做的可灵AI视频生成模型,反而悄咪咪的并没有什么特别大的发布会就直接上产品了。 实打实的申请了就能用的产品。 最长能生成3分钟。 你知道这个有多香吗? 国内同类的软件,效果不如可灵,价格起步12刀,想要用的爽点,得28刀。 可灵已经无限制的生成好几天了,别家这项服务一个月76刀,好几百块钱。 AI模型行不行就一个黄金指标,敢不敢开放给公众用。 via 知乎热榜 (author: 平凡)

相关推荐

封面图片

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪) 标签: #快手 #Sora #可灵 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

从 2 月 15 日 OpenAI 发布 Sora 模型到现在,官方一共发布了 85 个 demo 视频,其中官网 48 个,T

从 2 月 15 日 OpenAI 发布 Sora 模型到现在,官方一共发布了 85 个 demo 视频,其中官网 48 个,Tiktok 8 个, (Twitter) 29 个。 这 85 个视频被我全部存档在了这里: 包含每个视频的 prompt、prompt 中文翻译、原始链接、发布时间。由于 Sora 尚未正式对公众开放使用,可以粗略地认为,除了官方发布的视频之外,其余宣称是「Sora 生成」的视频大概率为伪造。在 Sora 正式对公众开放之前,这个数据库会尽可能保持更新。

封面图片

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 "从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望,"莫汉周四在接受彭博原创节目主持人艾米莉-张(Emily Chang)的采访时说,"其中一个期望就是要遵守服务条款。 它不允许下载文字稿或视频片段等内容,这明显违反了我们的服务条款。这些就是我们平台上内容的行事规则。"关于 OpenAI 使用什么材料来训练 ChatGPT 和 DALL-E 等流行内容创作产品的人工智能模型,公众一直争论不休。Sora 和其他生成式人工智能工具的工作原理是从网络上吸取各种内容,并将这些数据作为工具生成新内容(包括视频、照片、叙述性文字等)的基础。随着OpenAI、Google等公司竞相开发更强大的人工智能,它们正寻求尽可能多的内容来训练其人工智能模型,以获得更高质量的结果。Google和YouTube是Alphabet公司的子公司。微软公司支持的 OpenAI 没有立即回应置评请求。OpenAI 首席技术官米拉-穆拉提(Mira Murati)上个月在接受《华尔街日报》采访时说,她不确定 Sora 是否是在 YouTube、Facebook 和 Instagram 的用户生成视频上训练出来的。本周,《华尔街日报》援引熟悉此事的人士的话报道称,OpenAI 已经讨论过在转录 YouTube 公开视频的基础上训练其下一代大型语言模型 GPT-5。莫汉说,Google在决定是否使用平台上的视频来训练公司自己的强大人工智能模型"双子座"(Gemini)之前,会遵守 YouTube 与创作者签订的个人合同。"很多创作者在我们的平台上都有不同类型的内容授权合同。他说,虽然"YouTube语料库中的部分内容可能会被用于"训练Gemini等模型,但Google和YouTube会确保将这些视频用作Google人工智能的训练数据"符合该创作者事先签署的服务条款或合同"。 ... PC版: 手机版:

封面图片

快手今天发布了可灵视频生成模型,支持生成最长两分钟 30FPS 1080P 的。

快手今天发布了可灵视频生成模型,支持生成最长两分钟 30FPS 1080P 的视频。 生成质量是现在普通用户能接触到的天花板,5 秒视频这个等级完全超越了谷歌Voe 视频模型。 运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。 体验方法:快影 APP-AI 玩法-AI 视频生成中申请。

封面图片

如何看待国产sora可灵图生视频和续写功能上线,最长可生成3分钟?大模型到达什么水平了?

如何看待国产sora可灵图生视频和视频续写功能上线,最长可生成3分钟视频?国产大模型到达什么水平了? 深海逐豚的回答 去年chatgpt爆火的时候就说过,这条路实际上有利于中国。道理很简单,算法都现成的,核心点变成了数据、调参、训练。事实上就是这个行业初步的量产化了。 中国在开发算法上跟美国还有比较大的差距,但是在扩大规模、迅速量产方面,绝对是世界第一梯队的。中国还有一个美国没有的优势,就是AI能够快速跟产业对接。我本人都已经跟不少企业主聊过了,虽然现在大模型很难接入工业制造领域,但是他们其实也一直在关注。 所以美国的限制越来越丧心病狂,连4090都给禁了。新的路线里最重要的是数据和算力,既然数据阻挡不了,那就限制你的算力。 但是实际上这也就是稍微拖慢一下进程,因为严格的禁令反而让国产AI计算卡进展迅速,供不应求,迭代速度飞快。我问过好几家国内大厂的人,都反馈国产显卡用着还可以。当然肯定不如cuda那么好用,但是还可以,就不会掉队。 via 知乎热榜 (author: 深海逐豚)

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人