马斯克谈Sora:特斯拉一年前就能以精确的物理生成真实世界的视频,只是FSD训练算力不足

马斯克谈Sora:特斯拉一年前就能以精确的物理生成真实世界的视频,只是FSD训练算力不足 在回复X用户DrKnowItAll分析比较OpenAI Sora和特斯拉FSD V12的一个帖子时,马斯克说:“特斯拉在大约一年前就能以精确的物理生成真实世界的视频。这并不是超级有趣的事情,因为所有的训练数据都来自汽车,所以视频看起来就像是来自一辆特斯拉,尽管是动态生成的(而不是记录下的)。我们的FSD训练算力不足,所以还没有使用其他的视频进行训练,但当然是可行的。今年晚些时候,当我们有空余算力时,就会进行训练。” 标签: #OpenAI #Sora 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

马斯克:特斯拉一年前就能以精确的物理生成真实世界的视频

马斯克:特斯拉一年前就能以精确的物理生成真实世界的视频 在回复博主 DrKnowItAll 分析比较 OpenAI 的 Sora 和特斯拉 FSD V12 的一个帖子时,马斯克表示,大约一年前特斯拉就能以精确的物理生成真实世界的视频,这并不是什么有趣的事情,因为所有的训练数据都来自其汽车,所以看起来就像特斯拉的普通视频,尽管是通过动态生成的。由于 FSD 训练算力不足,因此没有使用其他视频进行训练,但肯定可以。今年晚些时候,当有空余算力时,就会进行训练。

封面图片

马斯克:特斯拉视频生成技术全球第一 比OpenAI更牛

马斯克:特斯拉视频生成技术全球第一 比OpenAI更牛 一位X用户发帖称:“OpenAI的Sora与特斯拉的FSD v12有什么关系?结果是有很多!OpenAI的重磅炸弹证实了特斯拉的理论!“马斯克回应称:“特斯拉已经能够以精确的物理生成真实世界视频大约一年了。这并不是特别有趣,因为所有的训练数据都来自汽车,所以它看起来就像特斯拉的视频,尽管是动态生成的(而不是记忆的)世界。”马斯克稍后分享了特斯拉一年前制作的几段模拟真实场景的自动驾驶视频,并在回应一位用户的评论时表示:“特斯拉视频生成超越OpenAI的地方在于,它预测了极其精确的物理场景。这对自动驾驶至关重要。”另一位X用户发帖称:“特斯拉应该做一款视频游戏。你可以通过解决工程问题获得积分,还可以获得徽章。”马斯克回应称:“我早就想这么做了:)我们的真实世界模拟和视频生成是世界上最好的,但不幸的是,我们只能在发布无监督的FSD后才能制作游戏,这比有监督的FSD更安全。”             ... PC版: 手机版:

封面图片

Sora证明马斯克的是对的 但特斯拉和人类可能都输了

Sora证明马斯克的是对的 但特斯拉和人类可能都输了 随后他在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。视频中,AI 同时生成了七个不同角度的驾驶视频,同时只需要输入‘直行’或者‘变道’这样的指令,就能让这七路视频同步变化。当然,这不意味着特斯拉早在一年前就掌握了 Sora 的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而 Sora 能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。但特斯拉 AI 和 Sora 训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是 AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。理解这个观点的核心,是理解 OpenAI 为 Sora 赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助 AI 理解真实世界的‘模拟器’。如果说特斯拉数以百万计的车辆仍然需要用‘肉身’感受这个世界,那么 Sora 则是单纯依靠数据的输入,建立起对世界的认知。OpenAI 官网上,关于 Sora 的这篇研究论文名为《把视频生成模型作为世界模拟器》。请注意‘世界模拟器’(world simulators)这个关键词,它是比生成视频更关键的核心所在。其实,早在特斯拉发布 FSD V12 的时候,这家以汽车为主要消费产品的人工智能公司,就已经展示了类似的能力。如何理解呢?首先,在 FSD V12 上,工程师删除了超过 30 万行定义驾驶规则的代码,系统将从被‘投喂’的驾驶视频中,学习如何应对真实的驾驶场景,而不是向过往那样,按照写好的规则,在某个特定场景下执行某一个具体的命令。当然,和作为‘生成式模型’的 Sora 不同,FSD 的目标是实现自动驾驶,所以它并不需要真正生成一个具体的视频。你可以想象成一个人(或者智能体)正在进行‘防御性驾驶’,基于过往经验,可以对周围环境中交通参与者的下一步移动趋势做出判断。这个判断存在在头脑里就行了,不需要真正把它画在纸上。因此,特斯拉的 FSD 也不需要把对未来的想象,生成为一个真实视频,并呈现在车辆的某一个屏幕上。所以,现在有 OpenAI 和特斯拉两家完全不同的公司,用截然不同的方式和路径,实现‘通过视频生成,让 AI 理解物理世界’这个相同的目标。简单了解一下 Sora 的运行逻辑:OpenAI 表示,Sora 结合了 Transformer 和 Diffusion 两个过去几年最重要的模型。ChatGPT、Gemini、LLaMA 等语言模式都是基于 Transformer 模型,它对词语进行标记,并生成下一个单词;Diffusion 模型则是‘文生图’的代表。如果从‘理解世界’的角度来审视 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的 60 秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的‘一致性’。这才是 Sora 遥遥领先并接近真实的地方。这一点和特斯拉在 FSD 上采取‘纯视觉’方案可以结合理解。简单来说,99% 的车企或者智驾团队都会在车辆上保留激光雷达,通过激光束的发射和接收,辅助计算周围物体和车辆间的距离关系。但马斯克不仅删除了 30 万行代码,还移除了雷达,只依靠高清摄像头采集和神经网络学习来判断距离关系。无论是对特斯拉,还是对 OpenAI,这都是巨大的挑战。毕竟输入的画面是 2D 的,但输出的结果(无论是驾驶指令还是视频)都需要基于对 3D 世界的深刻理解。规模和质量是训练模型的核心。特斯拉的数据来源于真实道路上,搭载了传感器的车辆;而 OpenAI 的大量数据,从目前的公开信息来看,来源于网络。在质量的维度,在《马斯克传》里,作者艾萨克森写道特斯拉通过和 Uber 合作,获取‘五星司机’的素材训练 FSD;而从规模出发,奥特曼最近希望筹集万亿规模的资金,就是重注算力和规模的具体体现。最后,回到一开始的那个问题,为什么我们会认为 Sora 和 FSD v12 是相似的?Sora 和 OpenAI 未来的想象空间又是什么呢?它们和 AGI 又有什么关系?在马斯克看来,当人工智能可以真正解决一个问题(物理、数学、化学等等)的时候,AGI 就到来了。不过还有另外一个理解维度,那就是具身智能。毕竟现实世界里,并不是只有数学公式和文字规则,拥有一定的智商的小猫小狗也可以依靠运动真实地和物理世界进行互动。这点对于过去只能输入二维信息的 AI 来说很难做到。这也是为什么马斯克看到 Sora 后在 X 上评价是‘GG Humans’,在他看来 Sora 今天做到的,已经打破了过去的次元壁,而能理解真实世界并继续学习,AI 也就有了更进一步影响真实世界的能力。而就像特斯拉把这种生成能力用于训练车辆,Sora 的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,‘Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。’ ... PC版: 手机版:

封面图片

马斯克暗示:OpenAI的视频生成技术 特斯拉一年前就掌握了

马斯克暗示:OpenAI的视频生成技术 特斯拉一年前就掌握了 马斯克接着写道:“我们一直缺乏FSD的计算机培训,所以没有使用其他视频进行培训,但当然可以这样做。我们将在今年晚些时候,当我们有一些闲置能力时这样做。”             ... PC版: 手机版:

封面图片

自动驾驶大杀器来了 特斯拉正式推送FSD v12

自动驾驶大杀器来了 特斯拉正式推送FSD v12 换言之,升级到FSD v12后,人工智能将取代工程师编码,在自动驾驶模式中掌管车辆行为。特斯拉测评博主Whole Mars的测评视频显示,在FSD v12接管车辆的过程中,其会在斑马线前等待行人过完马路,会顺滑地避开车道中停止的车辆,会在左/右转后快速变道;若车主的目的地在一条单行道的左侧,车辆也会直接靠左停车;在路边停着的其他车辆突然开出或在行驶途中突然停下时,FSD v12也会非常自然地及时避开……该测评账号称,自己从2020年起便开始测试特斯拉FSD测试版,从FSD v11.4.9到如今的FSD v12.1.2,“这是我见过FSD Beta最大的一次进步”,FSD v12.1.2已在“所有关键方面实现重大改进”。但同时他也承认,相较于FSD v11.4.9,FSD v12.1.2有更多需要接管的时候“FSD v12.1.2还没有为全无人驾驶做好准备”。马斯克曾表示,特斯拉将向用户提供非测试版的FSD v12,不过这次在更新说明中,FSD v12仍未摆脱“Beta”字样。在一个月前,马斯克透露,由于FSD v12是一个全新架构,特斯拉正在进行额外的测试。它在加州的表现很好,但还需要针对多降雨地区多加训练。端到端是最大亮点特斯拉FSD v12是其最重要的一次升级,端到端方案便是它最大的一个卖点。至于为何选择端到端方案?马斯克之前与上文提到的测评博主Whole Mars连线时,给出了更多细节:“人类就是这么做的,”他表示,“光子输入,手脚动作(控制)输出。”人类依靠眼睛和生物神经网络开车,对于自动驾驶而言,摄像头与神经网络AI便是正确的通用决策方案。虽说AI神经网络难以解释具体细节,但相应地,人类乘客在打车时,也无法准确地知道司机在想什么,只能看到司机的评价。端到端的整个算法几乎全部采用神经网络构建,开源证券指出,优势在于其灵活度非常高,应变能力好,上限高,并且可以以高度拟人化的状态驾驶,大幅提升驾乘体验。马斯克2023年8月的FSD v12试驾直播中,整体流程便非常丝滑,FSD v12与人类驾驶员驾驶习惯接近,表现出良好驾驶体验和效果。分析师进一步飙升,精巧算法、海量数据、大规模算力是FSDV12的必要条件。其中,数据是训练好算法的重中之重,如何收集海量的有效数据,并且通过训练让模型在相应的场景表现出对应的驾驶行为考验着开发者的技术能力。算力是训练自动驾驶模型的基础,特斯拉的算力要在2024年底达到100EFlops。精巧设计的算法也是构建端到端算法的核心环节。 ... PC版: 手机版:

封面图片

特斯拉FSD入华箭在弦上 能否再次成为“巨鲶”?

特斯拉FSD入华箭在弦上 能否再次成为“巨鲶”? 通过对比了相关文章内容发现,目前该文章的原文中已经没有了相关信息,但在外部网站的转载中仍然还保留着这一信息。原文与转载页面截图就此消息钛媒体App联系了特斯拉中国相关工作人员,但截至发稿,并未得到回复。不过,《财新》在6月16日的报道中援引知情人士信息称,上海自动驾驶示范区已经向特斯拉发放了道路测试牌照,FSD可能正在测试。一位行业人士也在和钛媒体App沟通时猜测说,“这个消息可能会在8月8日特斯拉官宣Robotaxi落地时放出。”FSD入华的两个关键问题FSD全称为Full-Self Driving,中文名为“完全自动驾驶”,是特斯拉研发的自动驾驶系统。2021年,特斯拉正式发布 FSD 测试版(Beta版)。虽然FSD在包括中国在内的全球范围内推出,但特斯拉并未在全球所有地方都允许其车辆进入FSD 模式。目前,特斯拉FSD仅在美国、加拿大、澳大利亚和部分欧洲国家提供。今年3月特斯拉向北美车主推送了最新的FSD V12.3.1版本。 6月,继续向其员工推送最新的 FSD V12.4.1,并计划向“一小部分外部用户”开放测试。在国内,特斯拉汽车配备了名为Autopilot的驾驶辅助系统,但FSD功能并不完整。经钛媒体App查阅特斯拉中国App,国内的FSD功能售价为64000元,而已经开通服务的美国FSD套餐售价为8000美元,月度订阅费价格为99美元。今年以来,马斯克多次释出FSD即将入华的信息。4月20日,马斯克在社交平台上透露,“FSD可能很快会进入中国”。几天后,马斯克“闪电式”访华时,又有消息称,马斯克访华意在推动特斯拉FSD系统在华落地,并寻求中方许可。事实上,FSD要想在华落地有两个核心问题必须要解决:第一,基础地理信息数据怎么获取?第二,怎么去采集新数据和训练,数据安全合规如何保证?与传统的ACC自适应巡航相比,自动驾驶不仅需要使用导航地图,还会收集道路相关信息。因此根据中国法规,所有自动驾驶系统在公共道路上行驶前必须取得测绘资质,外国车企需要与获得资质的中国公司合作,才能取得测绘资质。为了解决这一问题,特斯拉在不久前已经与百度达成了合作。后者将允许特斯拉获得其在中国公共道路上收集数据的地图牌照。同时,作为双方协议的一部分,百度还将向特斯拉提供其车道级导航系统。第一个问题解决了,那么第二个问题呢?从目前的信息来看,则是正在推进中。北京车展期间,马斯克访华的同时,中国汽车工业协会、国家计算机网络应急技术处理协调中心发布《关于汽车数据处理4项安全要求检测情况的通报(第一批)》,其中提到,特斯拉上海超级工厂生产的车型全部符合合规要求:车外人脸信息等匿名化处理、默认不收集座舱数据、座舱数据车内处理、处理个人信息显著告知等。此前,特斯拉在华的数据安全问题一直被质疑,而这一通报内容则在一定程度上释放出了正面的信息。紧接着,路透社在5月的一篇报道中提到,多名知情人士透露,为推动FSD的全球部署计划,特斯拉计划在中国收集数据,并在中国境内建立数据中心,进行数据处理以及为自动驾驶技术训练算法。知情人士还称,这是马斯克战略转变的一部分,此前他曾坚持将在华收集的数据转移至海外处理。是否会重现“鲶鱼”效应?虽然目前特斯拉FSD入华的详细时间表仍然没有一个确切的消息传出,但行业内也清楚这条“鲶鱼”真的要来了。但这条“鲶鱼”能否带来巨大的行业影响?业界如何看待特斯拉FSD入华呢?在第十六届中国汽车蓝皮书论坛上,Momenta CEO曹旭东在提到特斯拉FSD入华的影响时仍然表示,效果会是良币驱逐劣币,将带动中国汽车市场、自动驾驶产业发展。智驾科技CEO周圣砚也曾在和钛媒体App沟通时表示,特斯拉的FSD即将进入中国,留给本土车厂的时间不多了。不过,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东则表示,华为通过利用激光雷达增强了感知能力,这使得华为的智能驾驶系统在中国市场上的表现超过了特斯拉。同时,他还表示,欢迎特斯拉FSD进入中国市场,他认为竞争有助于推动行业的发展,同时也能够让消费者更加清楚地了解各家公司的产品性能。纵观特斯拉FSD从首次推出到现在,已经迭代到了V12版本,这一版本的独特性在于:不仅摘掉了“Beta”的“帽子”,还率先引入了“端到端”技术。特斯拉声称,FSD利用大模型AI接替了30万行代码,实现了“输入数据大模型处理数据直接输出控制指令”的工作流程。这一技术迅速为国内智驾行业指出了一个方向,并且逐渐成为行业共识。小鹏汽车、理想汽车、元戎启行等为代表的主机厂和智能驾驶技术公司相继进入这一领域。小鹏汽车是国内首个发布量产上车的端到端模型的整车企业。据悉,小鹏汽车推出的端到端模型包括神经网络XNet+规控大模型XPlanner和大语言模型XBrain。在2024中国汽车重庆论坛上,理想汽车董事长李想也透露,将向测试用户推送基于300万clips训练出的端到端+VLM自动驾驶体系。预计最早在今年年底、最晚明年年初,理想汽车将推出通过超过1000万clips训练出的更完善的自动驾驶体系,为用户提供监督型L3级自动驾驶体验。元戎启行则是在4月的北京车展上对外展示了即将量产的高阶智驾平台 DeepRoute IO 以及基于 DeepRoute IO 的端到端解决方案。之所以称特斯拉FSD为“鲶鱼”,一方面是发力早,另一方面相比于现在行业内已经言必称的端到端,特斯拉的端到端仍然有其优势所在。比如,数据库够大,全球已经跑了10亿英里。已经有超1000万段人类驾驶员真实驾驶决策视频片段,作为“饲料”喂养给FSD神经网络的大模型进行训练。除此之外,特斯拉在Dojo成熟后,也加入了算力“军备竞赛”,2024年2月特斯拉的算力规模将进入全球前五,2024年10月特斯拉的算力总规模将达到100 EFlops。驭势科技董事长兼CEO吴甘沙在第十六届中国汽车蓝皮书论坛上表示,过去两年中,特斯拉为了提升FSD的算力水平、训练数据、车端算力等,投入资金高达百亿美元量级。如果一旦失败,特斯拉可能面临着来自股市的惊天压力,如果成功,也可能会甩开自动驾驶赛道上的大小公司。不难看出,端到端并不只是一个概念,还需要实实在在的数据、算力、算法投入,缺一不可。尽管在电动化时代中国车企可圈可点,但进入智能化时代,能否继续高歌猛进却是一个很大的未知数。智能化尤其是以自动驾驶为代表的高阶智能化,比拼的不仅是制造能力,还需要更强大的跨界整合能力,它与集成电路、大数据、人工智能等产业密切相关。中国的车企想要把车卖到世界范围去,确实需要特斯拉FSD V12这样的“鲶鱼”来进行“倒逼”和推动。眼下,车企淘汰赛愈演愈烈,不少车企都将智能驾驶技术放到了宣传的C位,无论是从路上真实发生的事故,还是社交媒体上对于智驾技术的吐槽,比如无法识别车位、道路识别能力差和车机黑屏死机等,都能感受到存在的问题。我们也期待特斯拉FSD这条“鲶鱼”的到来,一方面可以给国内车企及第三方智驾供应商的真正“进阶”带来积极的启发与引领,另一方面也能倒逼国内自动驾驶技术“真进阶”,让蹭智驾热度卖车的车企相形见绌。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人