[视频]家务机器人更进一步：Google让其更理解你的自然语言命令

[视频]家务机器人更进一步：Google让其更理解你的自然语言命令Google母公司Alphabet正尝试将机器人和AI语言理解两个方面的研究整合起来，从而让“HelperRobot”更能理解人类的自然语言命令。早在2019年，Alphabet就开始研发机器人，让其执行诸如拿起饮料和清洁台面这样简单的任务。不过，EverydayRobots项目仍处于起步阶段，机器人的反应缓慢且没有准确执行人类的命令。但机器人现在通过Google的大型语言模型(LLM)PaLM提高了语言理解能力。目前，大部分机器人只能对一些简短的话语做出响应，例如“给我一杯水”。不过像GPT-3和Google的MuM这样的LLM模型能够更好解析命令背后的意图。Google的示例中，你可以向一台EverydayRobots原型提问：“我的饮料洒了，你能帮忙吗？”机器人通过可能动作的内部列表过滤此指令，并将其解释为“从厨房拿来抹布”。Google将由此产生的系统命名为PaLM-SayCan，这个名称捕捉了该模型如何将LLM的语言理解技能（“Say”）与其机器人的“能力基础”（即“Can”——通过可能的动作过滤指令）结合起来。Google表示，机器人在整合PaLM-SayCan后，在对101条用户指令的测试中正确响应率为84%，正确执行率为74%。虽然这个数字看起来很高，但是目前我们并不知道这101条指令的列表，因此不清楚这些指令的限制程度。PC版：https://www.cnbeta.com/articles/soft/1305263.htm手机版：https://m.cnbeta.com/view/1305263.htm

在Telegram中查看

相关推荐

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务

谷歌PaLM-SayCan模型可让机器人更好地理解自然语言并执行复杂任务长期使用Alexa、Siri、GoogleAssistant等数字助理的朋友，或许已留意到这项技术正在变得愈加智能。与此同时，近年来的机器人技术也在突飞猛进。以谷歌为例，该公司有在演示一款乒乓球机器人，旨在训练其应对快速、自适应、且精确的任务挑战。Google研究员接触科学家兼机器人技术负责人VincentVanhoucke表示：“在一鸣惊人之前，你必须勤学苦练”。（图viaHajeKamps）在速度和精度之外，Google还希望通过实验，攻克人类语言和机器人技术的交叉点。截至目前，这家科技巨头已在自然语言水平上取得了让人印象深刻的飞跃。举个例子，你可能会对一个人说——“有空帮我从柜台拿一杯饮料吗？”尽管对于人类来说，这句话的语境相当简洁。但是对于一台机器人来说，其中包含的信息量很可能将其绊倒。因为‘有空’这词语可能不包含任何意义，也可能是趁着机器人正在干另一件时与之通过自然语言交互。如果机器人过度理解了字面含义，它可能会回答一句‘当然可以’——即便用户并未明确要求它这么做。若机器人更加钻牛角尖，它可能又会陷入该帮你拿哪一种饮料的纠结。好消息是，Google正在使用该公司的NLP系统拉解决一些问题。在Pathways语言模型（PaLM）的帮助下，机器人有望更准确地接收并理解人类的真实所想。下一阶段的挑战，则是审视机器人能够切实做到哪些事情。比如让你让机器人拾取冰箱顶部的一瓶清洁剂时，它是否会小心安全地摆放到儿童不易接触到的地方。不过在此之前，Google还是会着眼于更加普适性的任务。简单的有‘向前移动一米’，稍微高级点的可以是‘去厨房拿一罐可乐’。然后才是复杂多步任务的拆解执行，比如——‘啊哦，我不小心将可乐撒地板上了！能帮忙清理干净、并再给我拿一杯吗？’对此，Google选择的方案是利用语言“讲述”（Say）模型中所包含的知识，来帮助机器人确定并评估哪些高级指令“可否”（Can）派上用场。在融汇了PaLM语言模型之后，Google已将它重命名为PaLM-SayCan，且正在自家实验室使用来自EverydayRobots的一些机器人（上图展示其已学会何时去充电休息）。当然，在投入实际商用之前，这项技术显然还有相当多需要完善的地方，尤其是需要事先收集极其庞大的知识与技能数据集。PC版：https://www.cnbeta.com/articles/soft/1305589.htm手机版：https://m.cnbeta.com/view/1305589.htm

Google 公布了 PaLM-E 具身语言模型，562B 参数，将现实世界的信息通过传感器纳入语言模型，让机器人可以连续对物体

Google公布了PaLM-E具身语言模型，562B参数，将现实世界的信息通过传感器纳入语言模型，让机器人可以连续对物体进行适应性操作。https://palm-e.github.io视频中执行了一个长期指令“从抽屉里拿给我米饼”，其中包括多个计划步骤，并结合机器人摄像头的视觉反馈。最后，在同一台机器人上展示另一个例子，其中指令是“给我带一个绿色星星”。绿色星星是这个机器人没有直接接触过的物品。投稿：@ZaiHuabot频道：@TestFlightCN

Google发布史上最大“通才”模型PaLM-E 看图说话还能操控机器人

Google发布史上最大“通才”模型PaLM-E看图说话还能操控机器人论文地址：https://arxiv.org/abs/2303.03378作为一种多模态具身视觉语言模型(VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。横跨机器人、视觉-语言领域的“通才”模型PaLM-E，全称PathwaysLanguageModelwithEmbodied，是一种具身视觉语言模型。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。当我们训练出最大的视觉语言模型，并与机器人结合后，会发生什么？结果就是PaLM-E，一个5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。经过单个图像提示训练，PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言。可以说，PaLM-E展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。更重要的是，研究人员证明，通过在多个机器人和一般视觉语言的不同混合任务组合进行训练，可以带来从视觉语言转移到具身决策的几种方法，让机器人规划任务时能够有效地利用数据。除此之外，PaLM-E尤为突出的一点在于，拥有强大的正迁移能力。在不同领域训练的PaLM-E，包括互联网规模的一般视觉-语言任务，与执行单一任务机器人模型相比，性能明显提高。而在模型尺度上，研究人员则观察到了一个显著的优势。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。尽管只在单个图像进行训练，但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。在OK-VQA基准上，PaLM-E取得了新的SOTA。测评结果在测试中，研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。值得注意的是，所有这些结果都是使用基于相同数据训练的相同模型获得的。在以前，机器人通常需要人工的协助才能完成长跨度任务。但现在，PaLM-E通过自主学习就可以搞定了。比如，“从抽屉里拿出薯片”这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。人类：给我来点薯片。机器人：1.走到抽屉旁2.打开最上面的抽屉3.从最上面的抽屉里拿起绿色的薯片4.放在柜台上。同样，让机器人去拿一个苹果时，给出图片后，机器人执行任务步骤如下——人类：给我拿一个苹果。机器人：1.走向苹果2.拿起苹果3.把它拿给操作员4.放下苹果5.完成。除了执行长跨度任务，PaLM-E可以让机器人执行规划任务，比如排列积木。研究人员根据视觉和语言输入成功地进行多阶段的计划，并结合了长时间范围的视觉反馈，进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。如下，在排列组合上，机器人化身为多面手，按颜色将积木排序。模型的泛化方面，PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。值得一提的是，数据集只包含有咖啡杯的三个演示，但其中没有一个包括红色的积木块。类似的，虽然模型此前从未见过乌龟，但照样可以顺利地把绿色积木推到乌龟旁边在零样本推理方面，PaLM-E可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。多张图的关系，PaLM-E也整得很明白，比如图一（左）在图二（右）的哪个位置。此外，PaLM-E还可以在给定带有手写数字的图像执行数学运算。比如，如下手写餐馆的菜单图，2张披萨需要多少钱，PaLM-E就直接给算出来了。以及一般的QA和标注等多种任务。最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。参考资料：https://palm-e.github.io/...PC版：https://www.cnbeta.com.tw/articles/soft/1348415.htm手机版：https://m.cnbeta.com.tw/view/1348415.htm

Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2（RT-2），可以帮助训练机器人理解扔垃圾等任务。在论文中，谷歌介绍RT-2是一种新型视觉语言动作（VLA）模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留网络规模能力。例如，可以帮助训练机器人理解扔垃圾等任务。RT-2表明，视觉语言模型（VLM）可以转换为强大的视觉语言动作（VLA）模型，该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改，而且还显示了构建通用物理机器人的前景，该机器人可以推理、解决问题和解释信息，以在现实世界中执行各种任务。论文：https://robotics-transformer2.github.io/assets/rt2.pdf来源：https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿：@ZaiHuaBot频道：@TestFlightCN

谷歌发布史上最大的视觉语言模型 PaLM-E

谷歌发布史上最大的视觉语言模型PaLM-E谷歌PaLM-E有着5620亿参数(ChatGPT为1750亿参数)，结合了PaLM-540B语言模型与ViT-22B视觉模型。将现实世界的连续传感器模态直接纳入语言模型，"为AI移植眼睛"从而建立单词和感知之间的联系。PaLM-E直接从机器人摄像头获取原始图像数据，并根据自然语言指令进行动作规划和执行，这样就避免了人工预处理或标注数据的需要，可以端到端自主学习这些任务。研究团队同时发现：1.语言模型越大，在视觉语言和机器人任务训练时就越能保持其语言能力，PaLM-E的5620亿的参数量刚好让它保留住了几乎所有语言能力。2."通才AI"的正迁移能力，同时在多个任务领域训练的PaLM-E，单任务能力相比"专精AI"显着提高。3.除了人机交互方面有着重大进展，团队还发现了PaLM-E有着诸如多模态思维链推理和多图像推理等新兴能力，在OK-VQA视觉问答基准测试上达成了新的SOTA(最佳水平AI)。投稿：@ZaiHuabot频道：@TestFlightCN

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人