Google RT-2 VLA模型可帮助机器人更快速地在融入新环境并开始工作

GoogleRT-2VLA模型可帮助机器人更快速地在融入新环境并开始工作该公司表示,训练机器人可能是一项"艰巨的工作",因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过,Google表示,RT-2为更多的通用机器人带来了巨大的发展前景。虽然该公司对RT-2所能带来的好处感到兴奋,但它表示,要让机器人在以人为中心的环境中发挥作用,还有很多工作要做。DeepMind认为,通用物理机器人可以从VLA模型中产生,它们可以推理、解决问题和解释信息,以执行现实世界中的任务。顾名思义,这并不是机器人变形VLA模型的第一次迭代。DeepMind表示,RT-2建立在RT-1的基础上,与之前的模型相比,泛化能力有所提高,在新的、未见过的任务上表现更好。与前代机器人相比,RT-2的另一项新技能是符号推理,这意味着它能理解抽象概念并对其进行逻辑操作。其中一个例子是,机器人被要求将巴纳移动到2加1的总和处,尽管它并没有接受过抽象数学或符号操作的明确训练,但它还是正确地完成了任务。虽然RT-2是机器人技术向前迈出的一大步,但宣布终结者机器人已经到来并不公平。该模型仍然需要人类的输入和监督,并且在实际机器人操作中会遇到很大的技术限制。尽管如此,我们还是希望它能带来一些有趣的机器人,完成以前不可能或不容易完成的任务。...PC版:https://www.cnbeta.com.tw/articles/soft/1373747.htm手机版:https://m.cnbeta.com.tw/view/1373747.htm

相关推荐

封面图片

Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2(RT-2),可以帮助训练机器人理解扔垃圾等任务。在论文中,谷歌介绍RT-2是一种新型视觉语言动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留网络规模能力。例如,可以帮助训练机器人理解扔垃圾等任务。RT-2表明,视觉语言模型(VLM)可以转换为强大的视觉语言动作(VLA)模型,该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改,而且还显示了构建通用物理机器人的前景,该机器人可以推理、解决问题和解释信息,以在现实世界中执行各种任务。论文:https://robotics-transformer2.github.io/assets/rt2.pdf来源:https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址:https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露,VLA模型已经接入到机器人身上,能够和现实世界进行互动了!这个机器人被Google命名为RoboticTransformer2(RT-2),它能够从网络、机器人的数据中学习,还能将这些知识自主转化为有效的指令。简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示:这真是泰酷辣!GoogleDeepMind负责人表示,长期以来,计算机在分析数据等复杂任务方面表现出色,但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2,我们正在缩小这一差距,帮助机器人解读世界并与之互动,让其对人类更加有用。但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈RoboticTransformer1(RT-1)为RT-2打下了坚实的基础。01RT-1升级RT-2,VLM到VLART-1是一种多任务模型,基于Transformer构建,能够将图像、自然语言指令等作为输入,并直接输出标记化动作。RT-1的架构:该模型采用文本指令和图像集作为输入,通过预先训练的FiLMEfficientNet模型将它们编码为token,并通过TokenLearner压缩它们。然后将这些输入到Transformer中,Transformer输出操作token因此,与一般机器相比,RT-1具有更好的性能和泛化能力。其中,RT-1所搭载的视觉语言模型(vision-languagemodels,VLMs)扮演了关键角色。VLM在互联网级的数据集上进行训练,因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础,是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作(action)的模态。为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示:RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如“1128912415101127217”于是,解决加入动作模态(action)将模型与机器进行联结的挑战后,VLM就升级为了VLA。RT-2也在一系列的升级换代后,显示出了惊人的学习能力和理解能力:它能够自己解释全新的命令,通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下,RT-2能够执行多阶段的语义推理。如,决定哪个物体可以用作临时的锤子(石头),或者哪种类型的饮料最适合疲倦的人(一种能量饮料)。RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验,一共进行了6,000多次机器人试验。具体来讲,Google团队探索了RT-2的三项技能:-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念,以及执行机器人控制的能力。比如,让RT-2去捡起从桌子上掉下来的袋子,或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例,需要通过网络预训练进行知识迁移在所有类别中,研究人员观察到,与之前的基线(例如之前的RT-1模型和VisualCortex(VC-1)等模型)相比,泛化性能提高了3倍以上,这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率:RT-2模型优于RT-1和VC-1基线此外,研究人员还进行了一系列定量评估,首先是机器人数据中有实例的原始RT-1任务,然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力,并提高了机器人在以前未见过场景中的性能,从RT-1的32%提高到了62%。研究人员还观察到,与仅视觉任务预训练的基线相比有显着改进,例如VC-1和机器人操作的可重用表示(R3M),以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能,并且在分布外未见的任务上优于多个基线。团队还在开源语言表(LanguageTable)机器人任务套件上评估了模型,模拟中的成功率高达90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基线模型有了大幅提高。然后,他们还在现实世界中评估相同的模型,并展示了其泛化到新对象的能力。如下所示,其中除了蓝色立方体之外,没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发,研究人员还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。特别是,对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。然后,研究人员还对数据进行了扩充,添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。示例如下:思想链推理能够学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型。通过将VLM预训练与机器人数据相结合,可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化,RT-2提升了机器人的策略。更重要的是,还带来了显着更好的泛化能力、以及应对突发问题的能力,继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单,而有效的修改,而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息,以在现实中执行各种任务世界。或许,机器人总动员中,那个聪明的瓦力离我们不远了。...PC版:https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版:https://m.cnbeta.com.tw/view/1373899.htm

封面图片

为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍 能“听懂人话”

为机器人安上“最强大脑”谷歌VLA新模型泛化能力提升3倍能“听懂人话”上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令。相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务。RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。总体而言,RT-2具备三大能力:符号理解(Symbolunderstanding)、推理(Reasoning)和人类识别(Humanrecognition)。(1)符号理解是指RT-2可以从视觉语言预训练中转移了语义知识,而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。图符号理解指令示例(2)推理则是将VLM的各种推理能力用于任务控制,包括视觉推理(“将苹果移到相同颜色的杯子里”)、数学推理(“将X移到2加1之和的附近”)、多语言理解(“muevelamanzanaalvasoverde”,西班牙语)。图推理指令示例(3)人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。图人类识别指令示例此外,研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。例如在下图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西可能能用上?”,RT-2转化得出了“石头。动作:1129138122132132106127”的指令,并拿起了石头。RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、VisualCortex(VC-1)等模型,RT-2泛化能力大幅提高,较前者提高了3倍有余。加利福尼亚大学伯克利分校的机器人学教授KenGoldberg表示,机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但Google利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。...PC版:https://www.cnbeta.com.tw/articles/soft/1374045.htm手机版:https://m.cnbeta.com.tw/view/1374045.htm

封面图片

Google发布史上最大“通才”模型PaLM-E 看图说话还能操控机器人

Google发布史上最大“通才”模型PaLM-E看图说话还能操控机器人论文地址:https://arxiv.org/abs/2303.03378作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。横跨机器人、视觉-语言领域的“通才”模型PaLM-E,全称PathwaysLanguageModelwithEmbodied,是一种具身视觉语言模型。它的强大之处在于,能够利用视觉数据来增强其语言处理能力。当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。而在模型尺度上,研究人员则观察到了一个显著的优势。语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。在OK-VQA基准上,PaLM-E取得了新的SOTA。测评结果在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。比如,“从抽屉里拿出薯片”这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。人类:给我来点薯片。机器人:1.走到抽屉旁2.打开最上面的抽屉3.从最上面的抽屉里拿起绿色的薯片4.放在柜台上。同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——人类:给我拿一个苹果。机器人:1.走向苹果2.拿起苹果3.把它拿给操作员4.放下苹果5.完成。除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。模型的泛化方面,PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。以及一般的QA和标注等多种任务。最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。参考资料:https://palm-e.github.io/...PC版:https://www.cnbeta.com.tw/articles/soft/1348415.htm手机版:https://m.cnbeta.com.tw/view/1348415.htm

封面图片

DeepMind 的 RoboCat 开始学习执行一系列机器人任务

DeepMind的RoboCat开始学习执行一系列机器人任务DeepMind的研究科学家、RoboCat团队的共同贡献者AlexLee表示:“我们证明,单个大型模型可以在多个真实的机器人实施例上解决多种任务,并且可以快速适应新的任务和实施例。”RoboCat受到Gato的启发,Gato是一种可以分析文本、图像和事件并对其采取行动的DeepMind人工智能模型,它接受了从模拟和现实生活中的机器人收集的图像和动作数据的训练。Lee表示,这些数据来自虚拟环境中其他机器人控制模型、人类控制机器人以及RoboCat本身的先前迭代的组合。为了训练RoboCat,DeepMind的研究人员首先收集了100到1000个使用人类控制的机械臂执行任务或机器人的演示。(例如让机器人手臂拾取齿轮或堆砌方块)然后,他们对RoboCat的任务进行了微调,创建了一个专门的“衍生”模型,该模型平均针对该任务进行了10,000次练习。利用衍生模型生成的数据和演示数据,研究人员不断扩大RoboCat的训练数据集,并训练RoboCat的后续新版本。RoboCat模型的最终版本接受了总共253项任务的训练,并在模拟和现实世界中对这些任务的141种变体进行了基准测试。DeepMind声称,在观察了几个小时内收集的1000个人类控制的演示后,RoboCat学会了操作不同的机械臂。虽然RoboCat已经接受了四种带有双叉手臂的机器人的训练,但该模型能够适应更复杂的带有三指抓手和两倍可控输入的手臂。为了避免RoboCat被誉为机器人控制AI模型的最终王者,在DeepMind的测试中,其跨任务的成功率差异很大——从低端的13%到高端的99%。这是训练数据中的1000个演示,不出所料,示威活动的成功率只有一半。尽管如此,在某些情况下,DeepMind声称RoboCat只需100次演示就能学习新任务。Lee相信RoboCat可能预示着解决机器人技术新任务的障碍将会降低。“为新任务提供有限数量的演示,RoboCat可以针对新任务进行微调,进而自行生成更多数据以进一步改进,”他补充道。展望未来,研究团队的目标是将教RoboCat完成新任务所需的演示次数减少到10次以下。...PC版:https://www.cnbeta.com.tw/articles/soft/1366699.htm手机版:https://m.cnbeta.com.tw/view/1366699.htm

封面图片

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明

谷歌DeepMind正在使用Gemini来训练机器人使其变得更聪明谷歌正在使用GeminiAI训练其机器人,以便它们能够更好地导航和完成任务,DeepMind机器人团队在一篇新的研究论文中解释了如何使用Gemini1.5Pro的长上下文窗口,让用户可以使用自然语言指令更轻松地与其RT-2机器人进行交互。其工作原理是拍摄指定区域的视频,研究人员使用Gemini1.5Pro让机器人“观看”视频以了解环境,然后机器人可以根据情况执行命令。DeepMind表示其Gemini驱动的机器人在超过50个任务中的成功率高达90%。研究人员还发现“初步证据”表明,Gemini使其机器人能够计划如何执行导航以外的指令,例如,当办公桌上有很多可乐罐的用户询问机器人“是否有他们最喜欢的饮料”时,Gemini就会知道“机器人应该导航到冰箱,检查是否有可乐,然后返回给用户报告结果。”DeepMind表示计划进一步调查这些结果。——,

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人