国产文生视频大模型 “筑梦” 亮相:在生成能力、时长、质量上与 Sora 还存在差距

国产文生视频大模型“筑梦”亮相:在视频生成能力、时长、质量上与Sora还存在差距在日前举行的中国首部AI动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式上,上海人工智能实验室研发的文生视频大模型“书生・筑梦”亮相。这个AI模型已经开源,授权用户单位免费商用。它的参数量超过30亿,可根据输入的提示词生成有故事性、含多镜头的分钟级视频,具有转场流畅、故事连贯、画质高清等特点。上海人工智能实验室领军科学家林达华说,“由于数据、算力等资源限制,‘筑梦’在视频生成能力、时长、质量上与Sora还存在差距。”(解放日报)

相关推荐

封面图片

腾讯混元文生图模型开源 采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构5月14日,腾讯宣布旗下混元文生图模型升级并开源,参数量15亿,目前已在平台及上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局,采用DiT架构的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍,混元文生图大模型是业内首个中文原生的DiT架构文生图模型,综合指标在文生图算法中排名第三。——

封面图片

上海人工智能实验室发布自动驾驶视频生成模型 GenAD

上海人工智能实验室发布自动驾驶视频生成模型GenAD上海人工智能实验室3月20日发文宣布,近日,该实验室联合香港科技大学、德国图宾根大学、香港大学推出大规模自动驾驶视频生成模型GenAD,通过预测和模拟真实世界场景,为自动驾驶技术的研究和应用提供支撑。视频生成模型GenAD进一步拓宽了自动驾驶技术的研究路径。结合此前推出的端到端自动驾驶模型UniAD、“语言+自动驾驶”全栈数据集DriveLM,上海人工智能实验室从多个技术维度对自动驾驶技术进行探索,从而多方位提升其智能性。同时,联合团队构建了包含1747小时驾驶视频的数据集OpenDV-YouTube,现已开源。

封面图片

字节跳动辟谣推出中文版 Sora:还无法完善产品落地,距离国外模型有很大差距

字节跳动辟谣推出中文版Sora:还无法完善产品落地,距离国外模型有很大差距今日有消息称,在Sora引爆文生视频赛道之前,国内的字节跳动也推出了一款颠覆性视频模型——Boximator。与Gen-2、Pink1.0等模型不同的是,Boximator可以通过文本精准控制生成视频中人物或物体的动作。对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。(新浪科技)

封面图片

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司OpenAI向好莱坞推荐视频生成技术Sora人工智能公司OpenAI在好莱坞发起了魅力攻势,与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议,展示其视频生成技术Sora,并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露,首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了Sora—一个新的生成式人工智能模型,能够根据简单的文字提示生成细节栩栩如生的视频。——

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》(Videogenerationmodelsasworldsimulators)的论文由多位OpenAI研究人员共同撰写,揭开了Sora架构关键方面的神秘面纱--例如,Sora可以生成任意分辨率和长宽比(最高1080p)的视频。根据论文所述,Sora能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力,OpenAI的合著者如是说。在一次实验中,OpenAI将Sora放到Minecraft上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora在Minecraft中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到GIF的转换工具造成的,而不是Sora。图片来源:OpenAIOpenAI那么,Sora是如何做到这一点的呢?正如NVIDIA高级研究员JimFan(通过Quartz)所说,与其说Sora是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式3D世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版:https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版:https://m.cnbeta.com.tw/view/1418461.htm

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅:OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临,OpenAI目前提供的情报,所揭示的一些惊人能力:-Sora根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。)-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验,它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的;换句话说,Sora理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界)-Sora还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤:OpenA正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由Sora生成的。OpenAI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候,Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说,我强烈意识到OpenAI描述的野心:「Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人