自动驾驶独角兽如此造假 LeCun都服了

自动驾驶独角兽如此造假LeCun都服了世界模型再次立大功了！这不LeCun看了都激情转发。如上效果，由GAIA-1的最新版本带来。它规模达90亿参数，用4700小时驾驶视频训练，实现了输入视频、文本或操作生成自动驾驶视频的效果。带来的最直接好处就是——能更好预测未来事件，20多种场景都能模拟，从而进一步提升了自动驾驶的安全性、还降低了成本。其主创团队直言，这能够改变自动驾驶的游戏规则！所以GAIA-1是如何实现的？规模越大效果越好GAIA-1是一个多模态生成式世界模型。它利用视频、文本和动作作为输入，生成逼真的驾驶场景视频，同时可以对自主车辆的行为以及场景特征进行细粒度控制。而且可以仅通过文本提示来生成视频。其模型原理有点像大语言模型的原理，就是预测下一个token。模型可以利用向量量化表示将视频帧离散，然后预测未来场景，就转换成了预测序列中的下一个token。然后再利用扩散模型从世界模型的语言空间里生成高质量视频。具体步骤如下：第一步简单理解，就是对各种输入进行重新编码和排列组合。利用一个专门的编码器对各种输入进行编码，不同输入投射到共用表示里。文本和视频编码器对输入分离、嵌入，操作（action）表示则被单独投射到共用表示里。这些编码的表示具有时间一致性。在进行排列之后，关键部分世界模型登场。作为一个自回归Transformer，它能预测序列中的下一组图像token。而且它不仅考虑了之前的图像token，还要兼顾文本和操作的上下文信息。这就使得模型生成内容，不仅保持了图像一致性，而且和预测文本、动作也能保持一致。团队介绍，GAIA-1中的世界模型规模为65亿参数，在64块A100上训练15天而成。最后再利用视频解码器、视频扩散模型，将这些token转换回视频。这一步关乎视频的语义质量、图像准确性和时间一致性。GAIA-1的视频解码器规模达26亿参数规模，利用32台A100训练15天而来。值得一提的是，GAIA-1不仅和大语言模型原理相似，同时也呈现出了随着模型规模扩大、生成质量提升的特点。团队将此前6月发布早期版本和最新效果进行了对比。后者规模为前者的480倍。可以直观看到视频在细节、分辨率等方面都有明显提升。而从实际应用方面出发，GAIA-1也带来了影响，其主创团队表示，这会改变自动驾驶的规则。原因来自三方面：安全综合训练数据长尾场景首先安全方面，世界模型能够通过模拟未来，让AI有能力意识到自己的决定，这对自动驾驶的安全性来说很关键。其次，训练数据对于自动驾驶来说也非常关键。生成的数据更加安全、便宜，而且还能无限扩展。最后，它还能解决目前自动驾驶面临的最大挑战之一——长尾场景。生成式AI可以兼顾更多边缘场景，比如在大雾天气行驶遇到了横穿马路的路人。这能更进一步提升自动驾驶的能力。Wayve是谁？GAIA-1来自英国自动驾驶初创公司Wayve。Wayve成立于2017年，投资方有微软等，估值已经达到了独角兽。创始人为现任CEO亚历克斯·肯德尔和艾玛尔·沙（公司官网领导层页已无其信息），两人都是来自剑桥大学的机器学习博士。技术路线上，和特斯拉一样，Wayve主张利用摄像头的纯视觉方案，很早就抛弃高精地图，坚定的走“即时感知”路线。前不久，该团队发布的另一个大模型LINGO-1也引发轰动。这个自动驾驶模型能够在行车过程中，实时生成解说，更进一步提高了模型可解释性。今年3月，比尔·盖茨还曾试乘过过Wayve的自动驾驶汽车。...PC版：https://www.cnbeta.com.tw/articles/soft/1388471.htm手机版：https://m.cnbeta.com.tw/view/1388471.htm

在Telegram中查看

相关推荐

【自动驾驶独角兽小马智行获

【自动驾驶独角兽小马智行获#沙特新未来城1亿美元投资，并将成立合资公司】小马智行宣布获得沙特阿拉伯王国新未来城（NEOM）及旗下投资#基金NIF（NEOMInvestmentFund）的1亿美元投资。同时，小马智行与NEOM计划在沙特西北部的新未来城成立合资公司，为该地区提供自动驾驶技术解决方案。本轮融资资金将用于自动驾驶技术全球化研发和运营投入等方向。小马智行和NEOM以合资公司为平台，面向沙特新未来城乃至中东及北非地区开展自动驾驶研发与制造，并部署自动驾驶服务车队以及智能汽车相关的基础设施。

上海人工智能实验室发布自动驾驶视频生成模型 GenAD

上海人工智能实验室发布自动驾驶视频生成模型GenAD上海人工智能实验室3月20日发文宣布，近日，该实验室联合香港科技大学、德国图宾根大学、香港大学推出大规模自动驾驶视频生成模型GenAD，通过预测和模拟真实世界场景，为自动驾驶技术的研究和应用提供支撑。视频生成模型GenAD进一步拓宽了自动驾驶技术的研究路径。结合此前推出的端到端自动驾驶模型UniAD、“语言+自动驾驶”全栈数据集DriveLM，上海人工智能实验室从多个技术维度对自动驾驶技术进行探索，从而多方位提升其智能性。同时，联合团队构建了包含1747小时驾驶视频的数据集OpenDV-YouTube，现已开源。

上海人工智能实验室3月20日发文宣布，近日，该实验室联合香港科技大学、德国图宾根、香港推出大规模自动驾驶视频生成模型Ge

上海人工智能实验室3月20日发文宣布，近日，该实验室联合香港科技大学、德国图宾根大学、香港大学推出大规模自动驾驶视频生成模型GenAD，通过预测和模拟真实世界场景，为自动驾驶技术的研究和应用提供支撑。视频生成模型GenAD进一步拓宽了自动驾驶技术的研究路径。结合此前推出的端到端自动驾驶模型UniAD、“语言+自动驾驶”全栈数据集DriveLM，上海人工智能实验室从多个技术维度对自动驾驶技术进行探索，从而多方位提升其智能性。（上证报）

滴滴自动驾驶获广汽集团投资首批进入L4级自动驾驶领域

滴滴自动驾驶获广汽集团投资首批进入L4级自动驾驶领域据悉，滴滴自动驾驶是最早进入L4级自动驾驶领域的国内科技企业之一。依托于全球卓越的出行平台，滴滴自动驾驶专注于共享出行场景下的L4级自动驾驶技术研发、产品应用及相关业务拓展，形成了领先的技术和运营能力。目前，滴滴自动驾驶已经连续安全运营超1200天，在广州和上海的运营区域内实现混合派单。面向大规模无人化运营场景，滴滴自动驾驶创新打造了首个24小时自动驾驶自动运维中心慧桔港，全流程自动化率已达90%。滴滴出行CTO兼滴滴自动驾驶CEO张博表示，广汽集团是汽车行业的领军企业，也是全球新能源领域的领跑者，在全栈产业链上有着深厚的积累，很高兴同广汽集团加强战略合作关系。广汽集团的大力支持，将有助于滴滴自动驾驶加快构建开放、可持续的共享出行网络，为用户提供安全、便捷、高性价比的自动驾驶出行服务。...PC版：https://www.cnbeta.com.tw/articles/soft/1389559.htm手机版：https://m.cnbeta.com.tw/view/1389559.htm

他们用ChatGPT方式搞自动驾驶论文入选了ICRA 2023

他们用ChatGPT方式搞自动驾驶论文入选了ICRA2023基于视觉和神经网络的自动驾驶算法，虽然能通过传感器数据，以及学习人类的驾驶行为，自主决策并控制车辆。但是，算法基于什么做出的决策？特别是出现故障，也就是决策错误的时候，算法是怎么想的？这些一直被称为自动驾驶算法里的“黑匣子”，让算法缺乏透明度和可解释性。不过，现在有这么一个模型，既能预测车辆控制行为，还能自己解释“我停车是因为红灯亮了，并且有行人在过马路”。模型论文入选ICRA2023，相关模型已开源。那么，是一个什么样的算法？ADAPT：驾驶行为感知说明大模型这是一种叫ADAPT（Action-awareDrivingCaptionTransformer）的端到端算法，也是目前第一个基于Transformer的驾驶行为描述框架，可以感知和预测驾驶行为，并且输出自然语言叙述和推理。直白一点说，输入车辆视频后，这个算法可以判断车辆行为并告诉你：车在做什么，为什么要这么做。在论文作者提供的测试视频里，这个算法最终上车的效果是这样的。（红色字是车辆行为，蓝色字是解释）“车在向前开。因为路上没有车。”驾驶行为变化后，算法也能及时感知：“车靠左边停下了。因为要停车。”“车开始移动并且靠右行驶。因为路左边停着车。”算法不仅能识别路口，也能识别骑着车的人。“车在十字路口停下了。因为要避开街上骑着自行车的人，”这是怎么实现的？多任务框架下的联合训练ADAPT框架可以分为两个部分：车辆行为描述（DCG，DrivingCaptionGeneration）和车辆控制信号预测（CSP，ControlSignalPrediction）。首先，传感器端输入视频，VideoSwinTransformer对车辆视频进行编码，得到的视频特征会输入进各任务模块里。在DCG模块，算法利用Vision-LanguageTransformer生成两个自然语句，也就是上文中提到的车辆行为描述和原因解释。相同的视频特征也会输入进CSP模块（类似一般基于视觉的自动驾驶系统），输出车辆实际的控制信号序列，并利用MotionTransformer输出模型预测的控制信号，比如速度、方向和加速度。在单个网络中，作者利用车辆实际的控制信号序列和模型预测的控制信号序列，两者的均方误差作为CSP模块的损失函数。而在多任务框架下，通过联合训练DCG和CSP，可以减少车辆决策和文本描述之间的差异，提高控制信号预测的准确率。论文里，作者们在包含控制信号和车辆视频的大规模数据集BDD-X上，利用机器评测和人工评测验证了ADAPT的有效性。机器评测方面，使用的是BLEU4、METEOR、ROUGE-L和CIDEr（对应缩写分别为B4、M、R、C）等多种语言任务常用的指标。最终显示ADAPT达到了当前最优（State-of-the-Art）的结果，ADAPT在动作描述方面比原有先进方法CIDEr高出31.7，在原因解释方面高33.1。人工评测分为动作描述、原因解释和全句三个部分。通过人工判断，ADAPT在这三部分的准确性分别达到了90%，90.3%和82.7%，证明了ADAPT的有效性。在可视化结果里，也能看出ADAPT可以准确识别车辆行为以及决策原因。并且在黑夜、阴雨天等场景下，ADAPT也能保证准确度；即使有雨刷器干扰，ADAPT也可以识别道路上的停止标识。为什么需要ADAPT？自动驾驶行为的可解释性在基于视觉的自动驾驶算法里，比较常见的解释图有视觉注意图（AttentionMap），或者成本量图（CostVolume），但不熟悉自动驾驶算法的人容易对这些图造成误解。上：视觉注意图；下：成本量图因此，ADAPT这种能够生成自然语言、“说人话”的算法，能够帮助用户更好地理解自动驾驶算法在做什么、为什么要这么做，同时还能让用户更信任自动驾驶技术。而对于算法工程师和研究人员来说，当发生极端情况时、或者发生故障（比如判断错误）时，ADAPT可以帮助他们获得更多信息，进而改进算法。作者们将进一步研究如何在模拟器和实际车辆上如何部署ADAPT，以及如何利用文本转语音技术，让生成的句子转化为语音，帮助普通乘客，特别是视力障碍乘客使用。...PC版：https://www.cnbeta.com.tw/articles/soft/1351033.htm手机版：https://m.cnbeta.com.tw/view/1351033.htm

华为新专利可检测自动驾驶是否失效

华为新专利可检测自动驾驶是否失效天眼查App显示，12月29日，华为技术有限公司申请的“检测自动驾驶系统的方法和装置”专利获授权。摘要显示，该申请涉及检测自动驾驶系统的方法和基于自动驾驶系统控制车辆行驶的方法，方法包括：获取目标驾驶场景中的多个车辆的传感器采集的数据，使用待检测自动驾驶系统根据这些数据获取目标车辆在目标驾驶场景中行驶时的轨迹信息，并将该轨迹信息与预设的轨迹信息进行比较，根据比较结果判断该自动驾驶系统在目标驾驶场景中行驶时是否失效。该申请还可以检测该自动驾驶系统的失效原因，以及使用检测过的自动驾驶系统控制车辆行驶。该申请提出的技术方案有助于提高车辆的安全性。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人