重磅： Open AI 正式推出文生视频模型 Sora

重磅：OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临，OpenAI目前提供的情报，所揭示的一些惊人能力：-Sora根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。）-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验，它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的；换句话说，Sora理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界）-Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤：OpenA正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由Sora生成的。OpenAI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候，Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到OpenAI描述的野心：「Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

在Telegram中查看

相关推荐

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

AIGC变天？OpenAI推出文生视频模型Sora 官方合集来了

AIGC变天？OpenAI推出文生视频模型Sora官方视频合集来了Prompt: “Beautiful,snowyTokyocityisbustling.Thecameramovesthroughthe bustlingcitystreet,followingseveralpeopleenjoyingthebeautiful snowyweatherandshoppingatnearbystalls.Gorgeoussakurapetalsare flyingthroughthewindalongwithsnowflakes.”美丽雪景中的东京城繁忙喧嚣。摄像机穿过繁忙的街道，跟随几个人享受美丽的雪景和在附近摊位购物。美丽的樱花瓣随风飘落，与雪花一起飞舞。Prompt: “Severalgiantwoolymammothsapproachtreadingthroughasnowymeadow, theirlongwoolyfurlightlyblowsinthewindastheywalk,snow coveredtreesanddramaticsnowcappedmountainsinthedistance,mid afternoonlightwithwispycloudsandasunhighinthedistancecreates awarmglow,thelowcameraviewisstunningcapturingthelargefurry mammalwithbeautifulphotography,depthoffield.”几头巨大的羊毛猛犸象踏过雪地草甸，它们长长的羊毛皮毛在风中轻轻摆动，远处覆盖着雪的树木和戏剧性的雪顶山脉，午后的光线透过稀疏的云层和远处高悬的太阳创造出温暖的光芒，低角度的摄像机视角令人惊叹，以美妙的摄影技术捕捉这大型毛茸茸的哺乳动物，景深效果。Prompt: “Amovietrailerfeaturingtheadventuresofthe30yearoldspaceman wearingaredwoolknittedmotorcyclehelmet,bluesky,saltdesert, cinematicstyle,shoton35mmfilm,vividcolors.”一部电影预告，展现一个穿着红色羊毛编织摩托车头盔的30岁太空人的冒险，蓝天、盐沼、电影风格，使用35mm胶片拍摄，色彩鲜艳。Prompt:“Agorgeouslyrenderedpapercraftworldofacoralreef,rifewithcolorfulfishandseacreatures.”一个华丽渲染的纸艺世界珊瑚礁，充满了五彩缤纷的鱼类和海洋生物。Prompt: “Animatedscenefeaturesaclose-upofashortfluffymonsterkneeling besideameltingredcandle.theartstyleis3dandrealistic,witha focusonlightingandtexture.themoodofthepaintingisoneofwonder andcuriosity,asthemonstergazesattheflamewithwideeyesand openmouth.itsposeandexpressionconveyasenseofinnocenceand playfulness,asifitisexploringtheworldarounditforthefirst time.theuseofwarmcolorsanddramaticlightingfurtherenhancesthe cozyatmosphereoftheimage.”动画场景特写一个短小毛茸茸的怪物跪在一根融化的红蜡烛旁。艺术风格为3D且逼真，专注于光照和质感。画面氛围充满了惊奇和好奇，当怪物睁大眼睛，张开嘴巴凝视着火焰时。它的姿势和表情传达出一种纯真和顽皮的感觉，仿佛它是第一次探索周围的世界。温暖的色彩和戏剧性的光照进一步增强了画面的舒适氛围。Prompt: “AstylishwomanwalksdownaTokyostreetfilledwithwarmglowing neonandanimatedcitysignage.shewearsablackleatherjacket,along reddress,andblackboots,andcarriesablackpurse.shewears sunglassesandredlipstick.shewalksconfidentlyandcasually.the streetisdampandreflective,creatingamirroreffectofthecolorful lights.manypedestrianswalkabout.”一位时尚女士走在东京街头，街道充满了温暖的霓虹灯和动态的城市标志。她穿着黑色皮夹克，一条长红裙和黑色靴子，并携带一个黑色手提包。她戴着太阳镜和红色口红，自信而随意地行走。街道潮湿且能反射，创造出色彩斑斓灯光的镜面效果。许多行人来往。Prompt:Abicycleraceonoceanwithdifferentanimalsasathletesridingthebicycleswithdronecameraview一场在海面上的自行车比赛，不同的动物作为运动员骑着自行车，无人机摄像机视角。Prompt: Ainstructionalcookingsessionforhomemadegnocchihostedbya grandmothersocialmediainfluencersetinarusticTuscancountry kitchenwithcinematiclighting由一位祖母社交媒体影响者主持的家庭自制意大利面食教学课程，设置在具有电影级照明的乡村托斯卡纳厨房中。Prompt:Twogoldenretrieverspodcastingontopofamountain两只金毛寻回犬在山顶上播客。Prompt:afuturisticdroneraceatsunsetontheplanetmars在火星上日落时分的未来派无人机比赛。纽约时报相关报道：OpenAI公布新技术Sora，能即时生成令人瞩目的视频OpenAI, 一家位于旧金山的创业公司，最近推出了一项名为Sora的新技术。这项技术能够基于简短描述即时生成视频，展示了如同从好莱坞电影中提取出来的画面。Sora的演示视频包括毛茸茸的猛犸象在雪地中奔跑、怪物凝视融化的蜡烛，以及仿佛通过飞跃城市拍摄的东京街景等短片。作为ChatGPT聊天机器人和静态图像生成器DALL-E的背后公司，OpenAI正与包括Runway和大型科技巨头如Google及Meta（Facebook和Instagram的母公司）等在内的多家公司竞争，以改进这种即时视频生成技术。这项技术不仅可以加速经验丰富的电影制作人的工作，也可能完全取代经验较少的数字艺术家。然而，这项技术也可能成为在线虚假信息的快速且低成本的制作方式，使得网络上区分真实内容变得更加困难。华盛顿大学专门研究人工智能的教授OrenEtzioni表示：“我非常担心这类技术会影响一些竞争激烈的选举。”OpenAI将其新系统命名为Sora，取自日语中“天空”的意思，象征着无限的创造潜力。公司目前还未向公众发布Sora，因为它还在努力了解系统的潜在危险。相反，OpenAI正在与一小群学者和其他外部研究人员共享这项技术，这些人将对其进行“红队”测试，寻找可能的滥用方式。OpenAI正在对系统生成的视频加上水印，以标识这些视频是由AI生成的。但该公司承认这些水印可以被移除，且可能难以被察觉。Sora生成视频的方式是响应简短的描述，尽管视频可能令人印象深刻，但并不总是完美的，可能会包含奇怪和不合逻辑的图像。例如，该系统最近生成了一个人正在吃饼干的视频——但饼干从未变小。随着DALL-E、Midjourney等静态图像生成器在过去几年的快速改进，它们现在生成的图像几乎与照片无法区分。这使得在线识别虚假信息变得更加困难，许多数字艺术家抱怨说，这让他们更难找到工作。密歇根州的电影概念艺术家ReidSouthen表示：“当Midjourney在2022年首次推出时，我们都笑称‘哦，那很可爱’。现在，人们因为Midjourney而失去工作。”...PC版：https://www.cnbeta.com.tw/articles/soft/1418495.htm手机版：https://m.cnbeta.com.tw/view/1418495.htm

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

OpenAI 发布文生视频模型 Sora

OpenAI发布文生视频模型Sora2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主PaddyGalloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu群组：@kejiquchat

中信证券：OpenAI 推出视频生成模型 Sora，AI 产业围绕多模态不断加码

中信证券：OpenAI推出视频生成模型Sora，AI产业围绕多模态不断加码中信证券研报指出，近一周内，OpenAI和谷歌分别推出了他们的最新AI模型，围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态，上下文长度超过百万，Sora在技术上采用了DiffusionTransformer的路线，OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力，有望成为真正的“世界模型”。从投资角度来看，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色，尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会，硬件端的需求也必然会随着多模态的技术进步而不断提高，我们仍然持续看好AI算力，尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人