马斯克谈Sora:特斯拉一年前就能以精确的物理生成真实世界的视频,只是FSD训练算力不足

马斯克谈Sora:特斯拉一年前就能以精确的物理生成真实世界的视频,只是FSD训练算力不足 在回复X用户DrKnowItAll分析比较OpenAI Sora和特斯拉FSD V12的一个帖子时,马斯克说:“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。这并不是超级有趣的事情,因为所有的训练数据都来自汽车,所以视频看起来就像是来自一辆特斯拉,尽管是动态生成的(而不是记录下的)。我们的FSD训练算力不足,所以还没有使用其他的视频进行训练,但当然是可行的。今年晚些时候,当我们有空余算力时,就会进行训练。” 标签: #OpenAI #Sora 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

马斯克:特斯拉一年前就能以精确的物理生成真实世界的视频

马斯克:特斯拉一年前就能以精确的物理生成真实世界的视频 在回复博主 DrKnowItAll 分析比较 OpenAI 的 Sora 和特斯拉 FSD V12 的一个帖子时,马斯克表示,大约一年前特斯拉就能以精确的物理生成真实世界的视频,这并不是什么有趣的事情,因为所有的训练数据都来自其汽车,所以看起来就像特斯拉的普通视频,尽管是通过动态生成的。由于 FSD 训练算力不足,因此没有使用其他视频进行训练,但肯定可以。今年晚些时候,当有空余算力时,就会进行训练。

封面图片

Sora证明马斯克的是对的 但特斯拉和人类可能都输了

Sora证明马斯克的是对的 但特斯拉和人类可能都输了 随后他在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。视频中,AI 同时生成了七个不同角度的驾驶视频,同时只需要输入‘直行’或者‘变道’这样的指令,就能让这七路视频同步变化。当然,这不意味着特斯拉早在一年前就掌握了 Sora 的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而 Sora 能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。但特斯拉 AI 和 Sora 训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是 AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。理解这个观点的核心,是理解 OpenAI 为 Sora 赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助 AI 理解真实世界的‘模拟器’。如果说特斯拉数以百万计的车辆仍然需要用‘肉身’感受这个世界,那么 Sora 则是单纯依靠数据的输入,建立起对世界的认知。OpenAI 官网上,关于 Sora 的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意‘世界模拟器’(world simulators)这个关键词,它是比生成视频更关键的核心所在。其实,早在特斯拉发布 FSD V12 的时候,这家以汽车为主要消费产品的人工智能公司,就已经展示了类似的能力。如何理解呢?首先,在 FSD V12 上,工程师删除了超过 30 万行定义驾驶规则的代码,系统将从被‘投喂’的驾驶视频中,学习如何应对真实的驾驶场景,而不是向过往那样,按照写好的规则,在某个特定场景下执行某一个具体的命令。当然,和作为‘生成式模型’的 Sora 不同,FSD 的目标是实现自动驾驶,所以它并不需要真正生成一个具体的视频。你可以想象成一个人(或者智能体)正在进行‘防御性驾驶’,基于过往经验,可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在在头脑里就行了,不需要真正把它画在纸上。因此,特斯拉的 FSD 也不需要把对未来的想象,生成为一个真实视频,并呈现在车辆的某一个屏幕上。所以,现在有 OpenAI 和特斯拉两家完全不同的公司,用截然不同的方式和路径,实现‘通过视频生成,让 AI 理解物理世界’这个相同的目标。简单了解一下 Sora 的运行逻辑:OpenAI 表示,Sora 结合了 Transformer 和 Diffusion 两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA 等语言模式都是基于 Transformer 模型,它对词语进行标记,并生成下一个单词;Diffusion 模型则是‘文生图’的代表。如果从‘理解世界’的角度来审视 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的 60 秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的‘一致性’。这才是 Sora 遥遥领先并接近真实的地方。这一点和特斯拉在 FSD 上采取‘纯视觉’方案可以结合理解。简单来说,99% 的车企或者智驾团队都会在车辆上保留激光雷达,通过激光束的发射和接收,辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了 30 万行代码,还移除了雷达,只依靠高清摄像头采集和神经网络学习来判断距离关系。无论是对特斯拉,还是对 OpenAI,这都是巨大的挑战。毕竟输入的画面是 2D 的,但输出的结果(无论是驾驶指令还是视频)都需要基于对 3D 世界的深刻理解。规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上,搭载了传感器的车辆;而 OpenAI 的大量数据,从目前的公开信息来看,来源于网络。在质量的维度,在《马斯克传》里,作者艾萨克森写道特斯拉通过和 Uber 合作,获取‘五星司机’的素材训练 FSD;而从规模出发,奥特曼最近希望筹集万亿规模的资金,就是重注算力和规模的具体体现。最后,回到一开始的那个问题,为什么我们会认为 Sora 和 FSD v12 是相似的?Sora 和 OpenAI 未来的想象空间又是什么呢?它们和 AGI 又有什么关系?在马斯克看来,当人工智能可以真正解决一个问题(物理、数学、化学等等)的时候,AGI 就到来了。不过还有另外一个理解维度,那就是具身智能。毕竟现实世界里,并不是只有数学公式和文字规则,拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。这点对于过去只能输入二维信息的 AI 来说很难做到。这也是为什么马斯克看到 Sora 后在 X 上评价是‘GG Humans’,在他看来 Sora 今天做到的,已经打破了过去的次元壁,而能理解真实世界并继续学习,AI 也就有了更进一步影响真实世界的能力。而就像特斯拉把这种生成能力用于训练车辆,Sora 的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,‘Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。’ ... PC版: 手机版:

封面图片

马斯克:特斯拉视频生成技术全球第一 比OpenAI更牛

马斯克:特斯拉视频生成技术全球第一 比OpenAI更牛 一位X用户发帖称:“OpenAI的Sora与特斯拉的FSD v12有什么关系?结果是有很多!OpenAI的重磅炸弹证实了特斯拉的理论!“马斯克回应称:“特斯拉已经能够以精确的物理生成真实世界视频大约一年了。这并不是特别有趣,因为所有的训练数据都来自汽车,所以它看起来就像特斯拉的视频,尽管是动态生成的(而不是记忆的)世界。”马斯克稍后分享了特斯拉一年前制作的几段模拟真实场景的自动驾驶视频,并在回应一位用户的评论时表示:“特斯拉视频生成超越OpenAI的地方在于,它预测了极其精确的物理场景。这对自动驾驶至关重要。”另一位X用户发帖称:“特斯拉应该做一款视频游戏。你可以通过解决工程问题获得积分,还可以获得徽章。”马斯克回应称:“我早就想这么做了:)我们的真实世界模拟和视频生成是世界上最好的,但不幸的是,我们只能在发布无监督的FSD后才能制作游戏,这比有监督的FSD更安全。”             ... PC版: 手机版:

封面图片

马斯克暗示:OpenAI的视频生成技术 特斯拉一年前就掌握了

马斯克暗示:OpenAI的视频生成技术 特斯拉一年前就掌握了 马斯克接着写道:“我们一直缺乏FSD的计算机培训,所以没有使用其他视频进行培训,但当然可以这样做。我们将在今年晚些时候,当我们有一些闲置能力时这样做。”             ... PC版: 手机版:

封面图片

自动驾驶大杀器来了 特斯拉正式推送FSD v12

自动驾驶大杀器来了 特斯拉正式推送FSD v12 换言之,升级到FSD v12后,人工智能将取代工程师编码,在自动驾驶模式中掌管车辆行为。特斯拉测评博主Whole Mars的测评视频显示,在FSD v12接管车辆的过程中,其会在斑马线前等待行人过完马路,会顺滑地避开车道中停止的车辆,会在左/右转后快速变道;若车主的目的地在一条单行道的左侧,车辆也会直接靠左停车;在路边停着的其他车辆突然开出或在行驶途中突然停下时,FSD v12也会非常自然地及时避开……该测评账号称,自己从2020年起便开始测试特斯拉FSD测试版,从FSD v11.4.9到如今的FSD v12.1.2,“这是我见过FSD Beta最大的一次进步”,FSD v12.1.2已在“所有关键方面实现重大改进”。但同时他也承认,相较于FSD v11.4.9,FSD v12.1.2有更多需要接管的时候“FSD v12.1.2还没有为全无人驾驶做好准备”。马斯克曾表示,特斯拉将向用户提供非测试版的FSD v12,不过这次在更新说明中,FSD v12仍未摆脱“Beta”字样。在一个月前,马斯克透露,由于FSD v12是一个全新架构,特斯拉正在进行额外的测试。它在加州的表现很好,但还需要针对多降雨地区多加训练。端到端是最大亮点特斯拉FSD v12是其最重要的一次升级,端到端方案便是它最大的一个卖点。至于为何选择端到端方案?马斯克之前与上文提到的测评博主Whole Mars连线时,给出了更多细节:“人类就是这么做的,”他表示,“光子输入,手脚动作(控制)输出。”人类依靠眼睛和生物神经网络开车,对于自动驾驶而言,摄像头与神经网络AI便是正确的通用决策方案。虽说AI神经网络难以解释具体细节,但相应地,人类乘客在打车时,也无法准确地知道司机在想什么,只能看到司机的评价。端到端的整个算法几乎全部采用神经网络构建,开源证券指出,优势在于其灵活度非常高,应变能力好,上限高,并且可以以高度拟人化的状态驾驶,大幅提升驾乘体验。马斯克2023年8月的FSD v12试驾直播中,整体流程便非常丝滑,FSD v12与人类驾驶员驾驶习惯接近,表现出良好驾驶体验和效果。分析师进一步飙升,精巧算法、海量数据、大规模算力是FSDV12的必要条件。其中,数据是训练好算法的重中之重,如何收集海量的有效数据,并且通过训练让模型在相应的场景表现出对应的驾驶行为考验着开发者的技术能力。算力是训练自动驾驶模型的基础,特斯拉的算力要在2024年底达到100EFlops。精巧设计的算法也是构建端到端算法的核心环节。 ... PC版: 手机版:

封面图片

特斯拉证实“解禁” FSD何时入华?

特斯拉证实“解禁” FSD何时入华? 值得注意的是,就在这一微妙时点,中汽协在一天前通告,特斯拉通过了与数据安全相关的关键测试。特斯拉中国方面同时也向记者证实,目前国内各地对特斯拉的使用限制陆续取消。这一突破也被视为,为FSD在国内落地扫清障碍。国内禁行禁停“亮绿灯”在一众国产新能源品牌在北京车展上大放异彩之际,特斯拉再度令市场聚焦。就在4月28日,马斯克抵达北京开启“旋风”访华行程。不到24小时后,其又火速返程。马斯克这一行程也引起了业内广泛猜测。早在4月20日,马斯克曾在社交平台上回复网友提问时便表示,特斯拉FSD可能很快就能进入中国。因此,业内猜测,马斯克此行目的,是讨论推出中国版FSD系统,并寻求获得批准。记者针对这一猜测,向特斯拉中国方面予以核实。该公司人士对记者表示,“FSD在国内落地的具体时间不好说”,但他同时表示,“我们预估快了”。实际上,就在马斯克开启访华这一微妙时点,中汽协悄然公布了一项关节测试结果。在4月28日,中汽协发布了《关于汽车数据处理4项安全要求检测情况的通报》,其中共有6家车企通过数据安全检测,其中便包括特斯拉。特斯拉也是唯一一家符合合规要求的外资车企。据悉,特斯拉上海工厂生产的车型(即Model 3和Model Y)符合国家相关法规规定的4项合规要求,包括车外人脸信息等匿名化处理、默认不收集座舱数据、座舱数据车内处理、处理个人信息显著告知等。特斯拉中国方面也向记者证实,目前国内各地已陆续解除对特斯拉的禁行禁停限制。国泰君安认为,随着特斯拉在国内“解禁”,FSD数据安全隐患也得到解决,特斯拉有望借势加速推进FSD入华事宜。FSD近期重大更新事实上,近期特斯拉在FSD上的动作颇多。就在2024年3月,特斯拉先后推出FSD(Beta)12.3.2、12.3.2.1以及最新的FSD(Supervised)12.3.3版本。相比较于FSD 11,FSD v12创新性地采用了端对端的神经网络技术,可以更好地理解和处理复杂驾驶环境,减少驾驶人员的干预,提高自动驾驶的精确度和自动化度。而且,FSD v12中采用端到端NN(以前是AI感知+软件规控),大模型仅需输入视频进行学习,而无需单独编码,更灵活更轻代码。最为关键是,FSD属于纯视觉无图自动驾驶方案。对于使用厂商而言,仅用摄像头完成自动驾驶,成本低于激光雷达方案。但其实,对于车企而言,纯视觉自动驾驶入门门槛却并不低。在业内看来,纯视觉方案门槛主要体现在三个方面。其一是海量数据。以特斯拉为例,特斯拉AI官方账号近期发布了其过去三年半取得的成就:实现了全自动驾驶累计行驶10亿英里(约16万公里)。第二方面是算法的研发和底层芯片的开发。一位业内人士告诉记者,按照L4量产级别的感知算法来看,研发预算便超过5亿元。而在芯片方面,特斯拉自2014年开始自研芯片之路,2019年发布了FSD自研芯片。在2021年8月,特斯拉又发布了用于神经网络训练的自研芯片D1。第三方面则为围绕算法训练搭建的算力中心。据了解,特斯拉自研的超级计算机Dojo于2023年7月开始生产部署。此次访华之际,马斯克在社交媒体上透露,今年将投资约100亿美元用于AI的训练和推理,而推理主要用于汽车。国内并非“无对手”不少业内人士看来,与当初特斯拉电动汽车进入中国市场类似,FSD入华也将起到“鲶鱼效应”。就在4月29日,小鹏汽车董事长何小鹏公开谈及其对FSD的看法。他直言,“我特别欢迎FSD入华”。在他看来,“只有更多好的产品、技术进入,才可以让整个市场和客户有更多好的体验,让市场更像良性发展和加速跑。”其实,即便FSD近期在国内落地,也并非没有对手。就在4月中旬,华为在智界S7“二次上市”的同时,还推出了其视觉智驾HUAWEI ADS基础版。此外,广汽集团近期也表示,该公司研发的Garcia无图纯视觉自动驾驶方案无需高精地图、无需激光雷达,将在2026年正式推出。该方案主要依靠AI视觉大模型带来的感知能力。据悉,与特斯拉纯视觉方案类似,广汽的纯视觉方案主要依赖其自研的交通道路感知多任务模型XRoadNet,以及障碍物感知多任务模型xPercFormer。一位广汽人士也对记者表示,从发展趋势来看,未来一段时间内,国内自动驾驶或呈现融合感知方案(即含有激光雷达、毫米波雷达等)和纯视觉方案并存的局面,但因为成本问题,面向主流市场的车型或会逐步向纯视觉方案靠拢。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人