为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍能“听懂人话”

为机器人安上“最强大脑”谷歌VLA新模型泛化能力提升3倍能“听懂人话”上文这个“抓起恐龙”的动作对于人类而言轻而易举，对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西，也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。作为一款新型视觉-语言-动作（vision-language-action，VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令。相较于其他机器人研究，RT-2的核心优势在于，其不仅能直接接收“人话”指令，听懂“人话”、理解“人话”，还能做出相应推理，并转为机器人能理解的分阶段指令，从而做出动作完成任务。RT-2完成的每一项任务，都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行任务，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应知识。总体而言，RT-2具备三大能力：符号理解（Symbolunderstanding）、推理（Reasoning）和人类识别（Humanrecognition）。（1）符号理解是指RT-2可以从视觉语言预训练中转移了语义知识，而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。图符号理解指令示例（2）推理则是将VLM的各种推理能力用于任务控制，包括视觉推理（“将苹果移到相同颜色的杯子里”）、数学推理（“将X移到2加1之和的附近”）、多语言理解（“muevelamanzanaalvasoverde”，西班牙语）。图推理指令示例（3）人类识别是以人类为中心的理解和识别能力，RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。图人类识别指令示例此外，研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。例如在下图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西可能能用上？”，RT-2转化得出了“石头。动作：1129138122132132106127”的指令，并拿起了石头。RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、VisualCortex（VC-1）等模型，RT-2泛化能力大幅提高，较前者提高了3倍有余。加利福尼亚大学伯克利分校的机器人学教授KenGoldberg表示，机器人的灵巧性仍达不到人类水平，在一些基本任务上也会失败，但Google利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。...PC版：https://www.cnbeta.com.tw/articles/soft/1374045.htm手机版：https://m.cnbeta.com.tw/view/1374045.htm

在Telegram中查看

相关推荐

真能听懂人话谷歌发布又一AI大模型黑科技

真能听懂人话谷歌发布又一AI大模型黑科技RT-2相当于机器人版ChatGPT，被GoogleDeepMind称作是其视觉-语言-动作（VLA）模型的新版本。该模型可以教会机器人更好地识别视觉和语言模态，能够解释人类用自然语言发出的指令，并推断出如何做出相应的行动。它还可以理解英语以外的语言的指示。结合思维链推理，RT-2可以执行多阶段语义推理。即便是一些抽象概念，RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子，它会抓起石头；让它给疲惫的人选一款饮料，它会选择红牛；让它把可乐罐移到泰勒·斯威夫特的照片上，它也能顺利完成。根据论文，RT-2模型基于网络和机器人数据进行训练，利用了Google自己的Bard等大型语言模型的研究进展，并将其与机器人数据（例如要移动的关节）相结合，然后将这些知识转化为机器人控制的通用指令，同时保留web-scale能力。GoogleDeepMind博客文章写道，RT-2显示出超越其所接触的机器人数据的泛化能力以及语义和视觉理解能力，包括解释新命令并通过执行基本推理（例如关于对象类别或高级描述的推理）来响应用户命令。其将信息转化为行动的能力表明，机器人有望更快地适应新的情况和环境。在对RT-2模型进行了超过6000次的机器人试验后，研究团队发现，RT-2在训练数据或“可见”任务上的表现与之前的模型RT-1一样好。它在新奇的、不可预见的场景中的表现几乎翻番，从RT-1的32%提高到62%。01让机器人用AI大模型学习新技能机器人技术领域正悄然进行一场革命——将大型语言模型的最新进展引入机器人，让机器人变得更聪明，并具备新的理解和解决问题的能力。《纽约时报》技术专栏作家凯文·罗斯（KevinRoose）在Google机器人部门观看了实际演示，工程师给机器人发出指令：“捡起灭绝的动物”，一个单臂机器人呼呼地响了一会儿，然后伸出机械臂，爪子张开落下，准确抓住了它面前桌子上的恐龙塑料制品。▲《纽约时报》拍摄的视频在这场长达1小时的演示中，RT-2还成功执行了“将大众汽车移到德国国旗上”的复杂指令，RT-2找到并抓住一辆大众巴士模型，并将其放在几英尺外的微型德国国旗上。▲两名Google工程师RyanJulian（左）和QuanVuong成功指示RT-2“将大众汽车移到德国国旗上”。（图源：《纽约时报》）多年以来，Google和其他公司的工程师训练机器人执行机械任务（例如翻转汉堡）的方式是使用特定的指令列表对其进行编程。然后机器人会一次又一次地练习该任务，工程师每次都会调整指令，直到得到满意的结果为止。这种方法适用于某些有限的用途。但以这种方式训练机器人，既缓慢又费力。它需要从现实世界的测试中收集大量数据。如果你想教机器人做一些新的事情（例如从翻转汉堡改做翻转煎饼），你通常必须从头开始重新编程。部分源于这些限制，硬件机器人的改进速度慢于基于软件的同类机器人。近年来，Google的研究人员有了一个想法：如果机器人使用AI大型语言模型（来为自己学习新技能，而不是逐一为特定任务进行编程，会怎样？据Google研究科学家卡罗尔·豪斯曼（KarolHausman）介绍，他们大约两年前开始研究这些语言模型，意识到它们蕴藏着丰富的知识，所以开始将它们连接到机器人。高容量视觉-语言模型（VLM）在web-scale数据集上进行训练，使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平，他们需要收集每个物体、环境、任务和情况的第一手机器人数据。RT-2的工作建立在RT-1的基础上。这是一个经过多任务演示训练的模型，可学习机器人数据中看到的任务和对象的组合。更具体地说，Google的研究工作使用了在办公室厨房环境中用13个机器人在17个月内收集的RT-1机器人演示数据。Google首次尝试将语言模型和物理机器人结合起来是一个名为PaLM-SayCan的研究项目，该项目于去年公布，它引起了一些关注，但其用处有限。机器人缺乏解读图像的能力，而这是能够理解世界的一项重要技能。他们可以为不同的任务写出分步说明，但无法将这些步骤转化为行动。Google的新机器人模型RT-2就能做到这一点。这个“视觉-语言-动作”模型不仅能够看到和分析周围的世界，还能告诉机器人如何移动。它通过将机器人的动作转换为一系列数字（这一过程称为标注）并将这些标注合并到与语言模型相同的训练数据中来实现这一点。最终，就像ChatGPT或Bard学会推测一首诗或一篇历史文章中接下来应该出现什么词一样，RT-2可以学会猜测机械臂应该如何移动来捡起球，或将空汽水罐扔进回收站垃圾桶。02采用视觉语言模型进行机器人控制RT-2表明视觉-语言模型（VLM）可以转化为强大的视觉-语言-动作（VLA）模型，通过将VLM预训练与机器人数据相结合，直接控制机器人。RT-2以视觉-语言模型（VLM）为基础，将一个或多个图像作为输入，并生成一系列通常代表自然语言文本的标注。此类VLM已接受web-scale数据的训练，能够执行视觉问答、图像字幕或对象识别等任务。GoogleDeepMind团队采用PaLI-X和PaLM-E模型作为RT-2的支柱。为了控制机器人，必须训练它输出动作。研究人员通过将操作表示为模型输出中的标注（类似于语言标注）来解决这一挑战，并将操作描述为可以由标准自然语言标注生成器处理的字符串，如下所示：▲RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”。该字符串以一个标志开头，指示是继续还是终止当前情节，而不执行后续命令，然后是更改末端执行器的位置和旋转以及机器人夹具所需延伸的命令。研究人员使用了与RT-1中相同的机器人动作离散版本，并表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型，因为此类模型的输入和输出空间不需要改变了。▲RT-2架构和训练：研究人员针对机器人和网络数据共同微调预先训练的VLM模型。生成的模型接收机器人摄像头图像并直接预测机器人要执行的动作。03泛化性能和紧急技能显著更好研究人员在RT-2模型上进行了一系列定性和定量实验，进行了6000多次机器人试验。在探索RT-2的新兴功能时，他们首先搜索了需要将web-scale数据的知识与机器人的经验相结合的任务，然后定义三类技能：符号理解、推理和人类识别。每项任务都需要理解视觉语义概念以及执行机器人控制以操作这些概念的能力。需要诸如“捡起即将从桌子上掉下来的袋子”之类的命令，其中要求机器人对机器人数据中从未见过的物体或场景执行操作任务将知识从基于网络的数据转化为可操作的。▲机器人数据中不存在的新兴机器人技能示例，需要通过网络预训练进行知识迁移。在所有类别中，研究人员观察到与之前的基线（例如之前的RT-1模型和VisualCortex（VC-1）等模型）相比，RT-2的泛化性能提高到3倍以上，这些模型是在大型视觉数据集上进行预训练的。▲紧急技能评估的成功率：RT-2模型优于之前的RT-1和VC-1基线。研究人员还进行了一系列定量评估，从最初的RT-1任务开始，在机器人数据中提供了示例，然后继续对机器人进行不同程度的以前未见过的物体、背景和环境，要求机器人从VLM预训练中学习泛化能力。▲机器人以前未见过的环境示例，RT-2可以推广到新的情况。RT-2保留了机器人数据中看到的原始任务的性能，并提高了机器人在以前未见过的场景上的性能，从RT-1的32%提高到了62%，展示了大规模预训练的巨大优势。PC版：https://www.cnbeta.com.tw/articles/soft/1373791.htm手机版：https://m.cnbeta.com.tw/view/1373791.htm

Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2（RT-2），可以帮助训练机器人理解扔垃圾等任务。在论文中，谷歌介绍RT-2是一种新型视觉语言动作（VLA）模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留网络规模能力。例如，可以帮助训练机器人理解扔垃圾等任务。RT-2表明，视觉语言模型（VLM）可以转换为强大的视觉语言动作（VLA）模型，该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改，而且还显示了构建通用物理机器人的前景，该机器人可以推理、解决问题和解释信息，以在现实世界中执行各种任务。论文：https://robotics-transformer2.github.io/assets/rt2.pdf来源：https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿：@ZaiHuaBot频道：@TestFlightCN

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

使用 GPT-3 模型，研究人员研发出能听懂英语指令并执行家务的机器人

使用GPT-3模型，研究人员研发出能听懂英语指令并执行家务的机器人普林斯顿大学、斯坦福大学和谷歌的一组研究人员，利用OpenAI的GPT-3Davinci模型，研发出了一款能听懂英语指令并执行家务的机器人，名为TidyBot。这款机器人可以根据用户的喜好，自动完成如分类洗衣服、捡起地上的垃圾、收拾玩具等任务。GPT-3Davinci模型是一种深度学习模型，属于GPT模型系列的一部分，可以理解和生成自然语言。该模型具有强大的总结能力，可以从大量的文本数据中学习复杂的对象属性和关系。研究人员利用这种能力，让机器人根据用户提供的几个示例对象放置位置，如“黄色衬衫放在抽屉里，深紫色衬衫放在衣柜里，白色袜子放在抽屉里”，然后让模型总结出用户的一般偏好规则，并应用到未来的交互中。投稿：@ZaiHuaBot频道：@TestFlightCN

Google RT-2 VLA模型可帮助机器人更快速地在融入新环境并开始工作

GoogleRT-2VLA模型可帮助机器人更快速地在融入新环境并开始工作该公司表示，训练机器人可能是一项"艰巨的工作"，因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过，Google表示，RT-2为更多的通用机器人带来了巨大的发展前景。虽然该公司对RT-2所能带来的好处感到兴奋，但它表示，要让机器人在以人为中心的环境中发挥作用，还有很多工作要做。DeepMind认为，通用物理机器人可以从VLA模型中产生，它们可以推理、解决问题和解释信息，以执行现实世界中的任务。顾名思义，这并不是机器人变形VLA模型的第一次迭代。DeepMind表示，RT-2建立在RT-1的基础上，与之前的模型相比，泛化能力有所提高，在新的、未见过的任务上表现更好。与前代机器人相比，RT-2的另一项新技能是符号推理，这意味着它能理解抽象概念并对其进行逻辑操作。其中一个例子是，机器人被要求将巴纳移动到2加1的总和处，尽管它并没有接受过抽象数学或符号操作的明确训练，但它还是正确地完成了任务。虽然RT-2是机器人技术向前迈出的一大步，但宣布终结者机器人已经到来并不公平。该模型仍然需要人类的输入和监督，并且在实际机器人操作中会遇到很大的技术限制。尽管如此，我们还是希望它能带来一些有趣的机器人，完成以前不可能或不容易完成的任务。...PC版：https://www.cnbeta.com.tw/articles/soft/1373747.htm手机版：https://m.cnbeta.com.tw/view/1373747.htm

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？

AI大战进入实体化阶段谷歌刚发布的PaLM-E模型有哪些亮点？（预印本论文，来源：谷歌、柏林工业大学）顾名思义，PaLM-E模型源自于谷歌的大型语言模型PaLM，E指的就是具象化（Embodied）。通过将通用语言模型与视觉转换模型ViT相结合，PaLM-E成功实现让AI同时具备“理解文字”和“读懂图片”的能力，不仅能够输出文字，还能输出指令使得机器人的智能化跃上一个新的台阶。研究人员介绍称，PaLM和ViT的结合，使得PaLM-E的参数量最高可达5620亿组，也是全球已知的最大视觉语言模型。回归到资本市场最关心的问题，这个听上去很厉害的AI模型，到底能干什么事情呢？对此研究人员也给出一系列案例，帮助外界理解这个模型的妙处。（PaLM-E模型的案例，来源：谷歌、柏林工业大学）首先，具备视觉属性的AI模型将拥有解读图片并进行思维推理的能力。例如可以通过一张禁行交通标志（除自行车外）的图片，来解答“我能否在这条马路上骑自行车”；通过OCR识别餐馆的手写菜单，能进行账单的计算；或是通过识别一系列烘焙材料的照片，向机器人传达“制作蛋糕胚”的流程。在AI模型与机器人结合的实验演示中，机器人得到“从抽屉里拿出米饼”的指令后，能够顺利地从十多个开放式抽屉中找到米饼，拿给研究人员。在后续的实验中，研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令，以及将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能顺利地完成任务。虽然从演示视频中来看，受限于演示机器人较为简单的设计，执行指令的时候仍显得“笨手笨脚”。但随着PaLM-E模型赋予机器思考如何执行人类指令的能力，工业应用和工业设计上的突破也指日可待。或许在不久的将来，就会出现一款风靡全球的智能机器人硬件。值得一提的是，作为AI大战的老对手，微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中，微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。 ...PC版：https://www.cnbeta.com.tw/articles/soft/1348493.htm手机版：https://m.cnbeta.com.tw/view/1348493.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人