[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。 OpenAI将收集用户发布的的 Sora 视频的数据来进行模型微调,从而获得更强的 Sora 模型,后期Open AI 可能会推出100% AI 生成内容的 TikTok平台。 其他人发布的视频数据 Open AI 应该是无法获取的,字节也不 ...

相关推荐

封面图片

一个猜测,Open AI在Tiktok发布的这些Sora视频的配音和配乐是不是也是某个模型自动匹配和生成的?

一个猜测,Open AI在Tiktok发布的这些Sora视频的配音和配乐是不是也是某个模型自动匹配和生成的? 提示:“一位 F1 车手白天在旧金山的街道上比赛,头盔摄像头捕捉到了车手的视角。远处可以看到金门大桥和城市景观,蓝天和阳光照亮了场景。驾驶员熟练地操纵汽车,在弯道上超越了汽车。”

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅: Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临,Open AI 目前提供的情报,所揭示的一些惊人能力: - Sora 根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。) - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验,它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的;换句话说,Sora 理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界) - Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。 - 更多官方案例参考 安全方面的声明和步骤: Open A 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。 Open AI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位 差不多在去年这个时候,Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。 从多模态的深远意义来说,我强烈意识到 Open AI 描述的野心: 「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

封面图片

周鸿祎谈视频模型Sora:未必短期能击败TikTok,但中美AI差距将进一步拉大

周鸿祎谈视频模型Sora:未必短期能击败TikTok,但中美AI差距将进一步拉大 据新浪科技,360董事长周鸿祎谈到了人工智能企业OpenAI今天发布的文字转视频模型Sora。周鸿祎表示,Sora对短视频行业有巨大的颠覆,但未必能那么快击败TikTok,更多是创作力工具。此外,他认为,中美两国的人工智能差距在拉大。 来源:格隆汇

封面图片

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频,不仅保证了视频的视觉质量,还能准确响应用户的指令。将在今天想有限的访问者开放。 模型优势: Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求,还能洞察这些元素在现实世界中是如何存在和表现的。 这款模型对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。 工作原理: Sora是一种扩散模型(diffusion model),它通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频,还能延长已有视频的长度。我们通过使模型能够预见多个画面帧,解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture),这为其带来了优异的扩展性能。 在Sora中,视频和图像被表示为一系列小块数据,称为“补丁”(patches),每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式,我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器,包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。 除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。 了解更多:

封面图片

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 ,可以基于用户输入的提示词,生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI的Sora AI视频应用将于2024年公开发布

OpenAI的Sora AI视频应用将于2024年公开发布 到目前为止,OpenAI 只允许少数受邀用户试用 Sora,部分原因是公司希望确保使用的安全性。不过,OpenAI 的首席技术官米拉-穆拉提(Mira Murati)在接受《华尔街日报》采访时表示,目前的计划是在 2024 年晚些时候向公众推出 OpenAI。事实上,她说"可能还要几个月"才能公开发布 Sora。人们对 Sora 以及所有基于文本提示的人工智能工具的担忧之一,是其大型语言模型的数据来源。就 Sora 而言,Murati 说它使用了 OpenAI 从 Shutterstock 获得授权的内容。不过,她拒绝透露更多数据来源,称这些数据来自"公开或授权数据"。目前,Sora 只能创建无声视频,而且在创建过程中不能对这些剪辑进行编辑。穆拉提确实说过,OpenAI 正在努力为 Sora 的剪辑添加音频和编辑工具。目前,还没有消息表明 OpenAI 将向公众收取多少使用 Sora 的费用。据 Murati 称,OpenAI 希望将 Sora 的定价与其 DALL-E 3 AI 艺术创作者的定价类似。不过,米拉补充说,Sora 在功能和支持方面对 OpenAI 来说"要昂贵得多"。当然,OpenAI 最大的财务和开发合作伙伴是微软,微软已将其 Chat-GPT 和 DALL-E 模型纳入其 Copilot 服务。就在 Sora 发布之后,有人问微软 X(前 Twitter)广告和网络服务主管 Mikhail Parakhin,Sora 是否也会加入 Copilot。帕拉金回答说:"最终会的,但这需要时间"。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人