Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2（RT-2），可以帮助训练机器人理解扔垃圾等任务。在论文中，谷歌介绍RT-2是一种新型视觉语言动作（VLA）模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留网络规模能力。例如，可以帮助训练机器人理解扔垃圾等任务。RT-2表明，视觉语言模型（VLM）可以转换为强大的视觉语言动作（VLA）模型，该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改，而且还显示了构建通用物理机器人的前景，该机器人可以推理、解决问题和解释信息，以在现实世界中执行各种任务。论文：https://robotics-transformer2.github.io/assets/rt2.pdf来源：https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

真能听懂人话谷歌发布又一AI大模型黑科技

真能听懂人话谷歌发布又一AI大模型黑科技RT-2相当于机器人版ChatGPT，被GoogleDeepMind称作是其视觉-语言-动作（VLA）模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态，能够解释人类用自然语言发出的指令，并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。结合思维链推理，RT-2可以执行多阶段语义推理。即便是一些抽象概念，RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子，它会抓起石头；让它给疲惫的人选一款饮料，它会选择红牛；让它把可乐罐移到泰勒·斯威夫特的照片上，它也能顺利完成。根据论文，RT-2模型基于网络和机器人数据进行训练，利用了Google自己的Bard等大型语言模型的研究进展，并将其与机器人数据（例如要移动的关节）相结合，然后将这些知识转化为机器人控制的通用指令，同时保留web-scale能力。GoogleDeepMind博客文章写道，RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力，包括解释新命令并通过执行基本推理（例如关于对象类别或高级描述的推理）来响应用户命令。其将信息转化为行动的能力表明，机器人有望更快地适应新的情况和环境。在对RT-2模型进行了超过6000次的机器人试验后，研究团队发现，RT-2在训练数据或“可见”任务上的表现与之前的模型RT-1一样好。它在新奇的、不可预见的场景中的表现几乎翻番，从RT-1的32%提高到62%。01让机器人用AI大模型学习新技能机器人技术领域正悄然进行一场革命——将大型语言模型的最新进展引入机器人，让机器人变得更聪明，并具备新的理解和解决问题的能力。《纽约时报》技术专栏作家凯文·罗斯（KevinRoose）在Google机器人部门观看了实际演示，工程师给机器人发出指令：“捡起灭绝的动物”，一个单臂机器人呼呼地响了一会儿，然后伸出机械臂，爪子张开落下，准确抓住了它面前桌子上的恐龙塑料制品。▲《纽约时报》拍摄的视频在这场长达1小时的演示中，RT-2还成功执行了“将大众汽车移到德国国旗上”的复杂指令，RT-2找到并抓住一辆大众巴士模型，并将其放在几英尺外的微型德国国旗上。▲两名Google工程师RyanJulian（左）和QuanVuong成功指示RT-2“将大众汽车移到德国国旗上”。（图源：《纽约时报》）多年以来，Google和其他公司的工程师训练机器人执行机械任务（例如翻转汉堡）的方式是使用特定的指令列表对其进行编程。然后机器人会一次又一次地练习该任务，工程师每次都会调整指令，直到得到满意的结果为止。这种方法适用于某些有限的用途。但以这种方式训练机器人，既缓慢又费力。它需要从现实世界的测试中收集大量数据。如果你想教机器人做一些新的事情（例如从翻转汉堡改做翻转煎饼），你通常必须从头开始重新编程。部分源于这些限制，硬件机器人的改进速度慢于基于软件的同类机器人。近年来，Google的研究人员有了一个想法：如果机器人使用AI大型语言模型（来为自己学习新技能，而不是逐一为特定任务进行编程，会怎样？据Google研究科学家卡罗尔·豪斯曼（KarolHausman）介绍，他们大约两年前开始研究这些语言模型，意识到它们蕴藏着丰富的知识，所以开始将它们连接到机器人。高容量视觉-语言模型（VLM）在web-scale数据集上进行训练，使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平，他们需要收集每个物体、环境、任务和情况的第一手机器人数据。RT-2的工作建立在RT-1的基础上。这是一个经过多任务演示训练的模型，可学习机器人数据中看到的任务和对象的组合。更具体地说，Google的研究工作使用了在办公室厨房环境中用13个机器人在17个月内收集的RT-1机器人演示数据。Google首次尝试将语言模型和物理机器人结合起来是一个名为PaLM-SayCan的研究项目，该项目于去年公布，它引起了一些关注，但其用处有限。机器人缺乏解读图像的能力，而这是能够理解世界的一项重要技能。他们可以为不同的任务写出分步说明，但无法将这些步骤转化为行动。Google的新机器人模型RT-2就能做到这一点。这个“视觉-语言-动作”模型不仅能够看到和分析周围的世界，还能告诉机器人如何移动。它通过将机器人的动作转换为一系列数字（这一过程称为标注）并将这些标注合并到与语言模型相同的训练数据中来实现这一点。最终，就像ChatGPT或Bard学会推测一首诗或一篇历史文章中接下来应该出现什么词一样，RT-2可以学会猜测机械臂应该如何移动来捡起球，或将空汽水罐扔进回收站垃圾桶。02采用视觉语言模型进行机器人控制RT-2表明视觉-语言模型（VLM）可以转化为强大的视觉-语言-动作（VLA）模型，通过将VLM预训练与机器人数据相结合，直接控制机器人。RT-2以视觉-语言模型（VLM）为基础，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标注。此类VLM已接受web-scale数据的训练，能够执行视觉问答、图像字幕或对象识别等任务。GoogleDeepMind团队采用PaLI-X和PaLM-E模型作为RT-2的支柱。为了控制机器人，必须训练它输出动作。研究人员通过将操作表示为模型输出中的标注（类似于语言标注）来解决这一挑战，并将操作描述为可以由标准自然语言标注生成器处理的字符串，如下所示：▲RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”。该字符串以一个标志开头，指示是继续还是终止当前情节，而不执行后续命令，然后是更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。研究人员使用了与RT-1中相同的机器人动作离散版本，并表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型，因为此类模型的输入和输出空间不需要改变了。▲RT-2架构和训练：研究人员针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。03泛化性能和紧急技能显著更好研究人员在RT-2模型上进行了一系列定性和定量实验，进行了6000多次机器人试验。在探索RT-2的新兴功能时，他们首先搜索了需要将web-scale数据的知识与机器人的经验相结合的任务，然后定义三类技能：符号理解、推理和人类识别。每项任务都需要理解视觉语义概念以及执行机器人控制以操作这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令，其中要求机器人对机器人数据中从未见过的物体或场景执行操作任务将知识从基于网络的数据转化为可操作的。▲机器人数据中不存在的新兴机器人技能示例，需要通过网络预训练进行知识迁移。在所有类别中，研究人员观察到与之前的基线（例如之前的RT-1模型和VisualCortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，这些模型是在大型视觉数据集上进行预训练的。▲紧急技能评估的成功率：RT-2模型优于之前的RT-1和VC-1基线。研究人员还进行了一系列定量评估，从最初的RT-1任务开始，在机器人数据中提供了示例，然后继续对机器人进行不同程度的以前未见过的物体、背景和环境，要求机器人从VLM预训练中学习泛化能力。▲机器人以前未见过的环境示例，RT-2可以推广到新的情况。RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前未见过的场景上的性能，从RT-1的32%提高到了62%，展示了大规模预训练的巨大优势。PC版：https://www.cnbeta.com.tw/articles/soft/1373791.htm手机版：https://m.cnbeta.com.tw/view/1373791.htm

Google DeepMind 公布 Genie 模型，可生成可交互的虚拟环境

GoogleDeepMind公布Genie模型，可生成可交互的虚拟环境GoogleDeepMind今天介绍了Genie，一种根据互联网视频训练的基础世界模型，可以从合成图像、照片甚至草图生成无数种可玩（动作可控）的世界。Genie可以用它以前从未见过的图像来作为输入，使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于2D平台游戏和机器人的视频，但其方法是通用的，并且可以扩展到任何类型的领域和更大的数据集。团队还通过使用Google的RT-1机器人的摄像头视频数据训练模型，表明Genie能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器，以便训练未来的通用智能体。——,

谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型PaLM-E谷歌PaLM-E有着5620亿参数(ChatGPT为1750亿参数)，结合了PaLM-540B语言模型与ViT-22B视觉模型。将现实世界的连续传感器模态直接纳入语言模型，"为AI移植眼睛"从而建立单词和感知之间的联系。PaLM-E直接从机器人摄像头获取原始图像数据，并根据自然语言指令进行动作规划和执行，这样就避免了人工预处理或标注数据的需要，可以端到端自主学习这些任务。研究团队同时发现：1.语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E的5620亿的参数量刚好让它保留住了几乎所有语言能力。2."通才AI"的正迁移能力，同时在多个任务领域训练的PaLM-E，单任务能力相比"专精AI"显着提高。3.除了人机交互方面有着重大进展，团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力，在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。投稿：@ZaiHuabot频道：@TestFlightCN

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

Google发布史上最大“通才”模型PaLM-E 看图说话还能操控机器人

Google发布史上最大“通才”模型PaLM-E看图说话还能操控机器人论文地址：https://arxiv.org/abs/2303.03378作为一种多模态具身视觉语言模型(VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。横跨机器人、视觉-语言领域的“通才”模型PaLM-E，全称PathwaysLanguageModelwithEmbodied，是一种具身视觉语言模型。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。当我们训练出最大的视觉语言模型，并与机器人结合后，会发生什么？结果就是PaLM-E，一个5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。经过单个图像提示训练，PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言。可以说，PaLM-E展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。更重要的是，研究人员证明，通过在多个机器人和一般视觉语言的不同混合任务组合进行训练，可以带来从视觉语言转移到具身决策的几种方法，让机器人规划任务时能够有效地利用数据。除此之外，PaLM-E尤为突出的一点在于，拥有强大的正迁移能力。在不同领域训练的PaLM-E，包括互联网规模的一般视觉-语言任务，与执行单一任务机器人模型相比，性能明显提高。而在模型尺度上，研究人员则观察到了一个显著的优势。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。尽管只在单个图像进行训练，但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。在OK-VQA基准上，PaLM-E取得了新的SOTA。测评结果在测试中，研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。值得注意的是，所有这些结果都是使用基于相同数据训练的相同模型获得的。在以前，机器人通常需要人工的协助才能完成长跨度任务。但现在，PaLM-E通过自主学习就可以搞定了。比如，“从抽屉里拿出薯片”这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。人类：给我来点薯片。机器人：1.走到抽屉旁2.打开最上面的抽屉3.从最上面的抽屉里拿起绿色的薯片4.放在柜台上。同样，让机器人去拿一个苹果时，给出图片后，机器人执行任务步骤如下——人类：给我拿一个苹果。机器人：1.走向苹果2.拿起苹果3.把它拿给操作员4.放下苹果5.完成。除了执行长跨度任务，PaLM-E可以让机器人执行规划任务，比如排列积木。研究人员根据视觉和语言输入成功地进行多阶段的计划，并结合了长时间范围的视觉反馈，进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。如下，在排列组合上，机器人化身为多面手，按颜色将积木排序。模型的泛化方面，PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。值得一提的是，数据集只包含有咖啡杯的三个演示，但其中没有一个包括红色的积木块。类似的，虽然模型此前从未见过乌龟，但照样可以顺利地把绿色积木推到乌龟旁边在零样本推理方面，PaLM-E可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。多张图的关系，PaLM-E也整得很明白，比如图一（左）在图二（右）的哪个位置。此外，PaLM-E还可以在给定带有手写数字的图像执行数学运算。比如，如下手写餐馆的菜单图，2张披萨需要多少钱，PaLM-E就直接给算出来了。以及一般的QA和标注等多种任务。最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。参考资料：https://palm-e.github.io/...PC版：https://www.cnbeta.com.tw/articles/soft/1348415.htm手机版：https://m.cnbeta.com.tw/view/1348415.htm

Google RT-2 VLA模型可帮助机器人更快速地在融入新环境并开始工作

GoogleRT-2VLA模型可帮助机器人更快速地在融入新环境并开始工作该公司表示，训练机器人可能是一项"艰巨的工作"，因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过，Google表示，RT-2为更多的通用机器人带来了巨大的发展前景。虽然该公司对RT-2所能带来的好处感到兴奋，但它表示，要让机器人在以人为中心的环境中发挥作用，还有很多工作要做。DeepMind认为，通用物理机器人可以从VLA模型中产生，它们可以推理、解决问题和解释信息，以执行现实世界中的任务。顾名思义，这并不是机器人变形VLA模型的第一次迭代。DeepMind表示，RT-2建立在RT-1的基础上，与之前的模型相比，泛化能力有所提高，在新的、未见过的任务上表现更好。与前代机器人相比，RT-2的另一项新技能是符号推理，这意味着它能理解抽象概念并对其进行逻辑操作。其中一个例子是，机器人被要求将巴纳移动到2加1的总和处，尽管它并没有接受过抽象数学或符号操作的明确训练，但它还是正确地完成了任务。虽然RT-2是机器人技术向前迈出的一大步，但宣布终结者机器人已经到来并不公平。该模型仍然需要人类的输入和监督，并且在实际机器人操作中会遇到很大的技术限制。尽管如此，我们还是希望它能带来一些有趣的机器人，完成以前不可能或不容易完成的任务。...PC版：https://www.cnbeta.com.tw/articles/soft/1373747.htm手机版：https://m.cnbeta.com.tw/view/1373747.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人