中信证券：OpenAI 推出视频生成模型 Sora，AI 产业围绕多模态不断加码

中信证券：OpenAI推出视频生成模型Sora，AI产业围绕多模态不断加码中信证券研报指出，近一周内，OpenAI和谷歌分别推出了他们的最新AI模型，围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态，上下文长度超过百万，Sora在技术上采用了DiffusionTransformer的路线，OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力，有望成为真正的“世界模型”。从投资角度来看，Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色，尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会，硬件端的需求也必然会随着多模态的技术进步而不断提高，我们仍然持续看好AI算力，尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

在Telegram中查看

相关推荐

东莞证券：AI 多模态大模型快速迭代

东莞证券：AI多模态大模型快速迭代东莞证券研报指出，近一个月内，从OpenAI发布Sora模型，到谷歌更新Gemini1.5，再到Anthropic推出Claude3系列模型，AI多模态大模型快速迭代。随着多模态能力不断提升，有望加大对IP内容的价值挖掘和商业转化力度，赋能内容生产实现降本增效，进一步打开行业成长空间。后续建议积极关注海内外大模型落地和应用进展，关注国内布局AI大模型领域的公司，如昆仑万维等；受益于多模态技术发展的IP/影视公司，如中文在线、上海电影等。

中信证券：文生视频 Sora 等模型发布有望继续推动算力与网络需求升级

中信证券：文生视频Sora等模型发布有望继续推动算力与网络需求升级中信证券研报表示，2024年2月16日凌晨，OpenAI发布文生视频多模态模型Sora，其生成视频demo表现效果十分惊艳，引发广泛关注。中信证券认为若Sora成为视频创作领域的超级应用，将带来巨大的网络设备升级需求。同时谷歌最新多模态大模型Gemini1.5以及英伟达本地聊天机器人ChatwithRTX也在近期陆续发布。AI发展趋势已经愈发明确，AI产业成熟的商业模式与“收入—资本开支”的良性循环亦在逐步形成。这有望缓解市场对于光模块等算力设备投资持续性的担忧，从而打开龙头厂商估值空间。

中信证券：谷歌 Gemini 模型发布，AI 进入多模态时代

中信证券：谷歌Gemini模型发布，AI进入多模态时代中信证券研报指出，近日，谷歌宣布发布新一代大模型Gemini，再次引发市场对人工智能产业的持续关注。Gemini模型作为谷歌以及全球范围内最先发布的多模态模型，在性能上是第一个在MMLU上超越人类专家的模型。模型根据体量大小分为GeminiUltra、GeminiPro、以及GeminiNano三个版本，支持在云端以及边缘测运行。同时谷歌同步发布最新版本的计算芯片TPUv5p，相较上一代TPUv4性价比提升2.3倍。我们认为，多模态Gemini模型的正式发布，一方面可以拓宽应用场景的拓展，另一方面能够带来算力需求的持续升级。我们持续看好后续AI产业的前景，认为后续GPT-5等模型的发布亦将带来更多的催化。

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

国泰君安：OpenAI 发布 Sora 模型，实现 AIGC 领域的里程碑式进展

国泰君安：OpenAI发布Sora模型，实现AIGC领域的里程碑式进展国泰君安发布研报称，OpenAI发布首个文生视频模型Sora，效果震撼。Sora模型可以通过文本描述生成60秒长视频，还可以对视频色彩风格等要素精确理解，创造出人物表情丰富、情感生动的视频内容。Sora三大亮点突出，实现AIGC领域的里程碑式进展。首先是60秒长视频，Sora可以保持视频主体与背景的高度流畅性与稳定性。其次是单视频多角度镜头，Sora在一个视频内实现多角度镜头，分镜切换符合逻辑且十分流畅。再是理解真实世界的能力，Sora对于光影反射、运动方式、镜头移动等细节处理得十分优秀，极大地提升了真实感。Sora模型推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革，AI赋能范围进一步扩大，多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。

赶在谷歌Gemini发布前 OpenAI要抢发“多模态”大模型

赶在谷歌Gemini发布前OpenAI要抢发“多模态”大模型然而，OpenAI又要来截胡了。据媒体最新报道，OpenAI正在积极努力将多模态功能（类似于Gemini预计提供的功能）纳入GPT-4，目标赶在Gemini发布前推出多模态大型语言模型（MLLM），即代号为Gobi的下一代大型语言模型，以击败谷歌并保持领先地位。随着ChatGPT在各领域展现出非凡能力，多模态大型语言模型近来也成为了研究的热点，它利用强大的大型语言模型（LLM）作为“大脑”，可以执行各种多模态任务。MLLM展现出了传统方法所不具备的能力，比如能够根据图像创作故事、视觉知识问答、无需OCR（光学字符识别）的数学推理等，从自然语言理解到图像解释等，提供更广泛的信息处理能力。报道称，OpenAI早在3月份发布GPT-4时就预先展示了这些功能，但除了一家名为“BeMyEyes”的公司外，没有向其他公司开放。后者主要为有视力障碍或失明的人开发移动应用程序。六个月后，OpenAI正准备在更大范围内推出被称为GPT-Vision的功能。为什么OpenAI花了这么长时间才推出这项功能？报道称主要是担心新的视觉功能会被不良行为者利用，比如通过自动解决验证码来冒充人类，或者通过面部识别来跟踪人们。但OpenAI的工程师们似乎接近于解决围绕这项新技术的法律担忧。谷歌也面临这个问题，当该公司被问及正在采取哪些措施来防止Gemini滥用时，谷歌发言人指出，该公司在7月份做出了一系列承诺，以确保其所有产品能够负责任地开发。然而，考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据（包括来自搜索和YouTube等平台的数据），该行业向多模态模型的发展可能会有利于发挥谷歌的优势。一位使用过早期版本的人说，与现有的模型相比，Gemini似乎已经产生了更少的错误答案。OpenAI首席执行官SamAltman在最近的各种采访中暗示，GPT-5还没有出现，但他们计划对GPT-4进行各种增强，新的增强模型可能是其中之一。报道称，OpenAI似乎还没有开始训练Gobi，所以现在就说它最终会成为GPT-5还为时过早。在上周接受《连线》杂志采访时，谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心，并认可技术进步的持久性，以及他们在平衡创新与责任方面深思熟虑的战略。无论如何，这场竞赛就相当于人工智能版的iPhone与Android。人们正屏息以待Gemini的到来，它将揭示谷歌和OpenAI之间的差距到底有多大。风险提示及免责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。...PC版：https://www.cnbeta.com.tw/articles/soft/1384867.htm手机版：https://m.cnbeta.com.tw/view/1384867.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人