Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

在Telegram中查看

相关推荐

Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2（RT-2），可以帮助训练机器人理解扔垃圾等任务。在论文中，谷歌介绍RT-2是一种新型视觉语言动作（VLA）模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留网络规模能力。例如，可以帮助训练机器人理解扔垃圾等任务。RT-2表明，视觉语言模型（VLM）可以转换为强大的视觉语言动作（VLA）模型，该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改，而且还显示了构建通用物理机器人的前景，该机器人可以推理、解决问题和解释信息，以在现实世界中执行各种任务。论文：https://robotics-transformer2.github.io/assets/rt2.pdf来源：https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿：@ZaiHuaBot频道：@TestFlightCN

“终结者”走入现实？微软的野心：用ChatGPT控制机器人

“终结者”走入现实？微软的野心：用ChatGPT控制机器人不过，现在的ChatGPT只会动动嘴皮子，并没有任何接触现实物理世界的能力，顶多也就是当个科幻小说看看。但要是ChatGPT真的可以操控机器人呢？最近，微软发表了一篇论文，公布了他们正在把ChatGPT应用于机器人上的研究成果。不过微软的目标并非是“毁灭世界”，而是加快机器人的开发速度。实际上在现代的生活和生产流程中，处处都离不开机器人，从工厂里制造产品的机械臂，到家庭里用的吸尘器，都可以算作是机器人（robot）。每次想开发一个新产品，或者让现有的机器执行一个新功能，都需要一个高级工程师编写代码，同时尽可能编写测试覆盖所有场景。微软在论文中提出了一套新的设计原则，通过ChatGPT这样的大型语言模型来给机器人提供指令。ChatGPT：机器人控制器ChatGPT之所以爆火，其根本原因就在于：AI终于在一定程度上能“听懂人话”了，而非只是按照语法胡乱生成内容；而且它的功能也很强大，问答、写论文、写诗、写代码，只要prompt写得够好，ChatGPT的表现也会更惊人。要是把这种能力迁移到机器人身上，假设几十年以后，各家各户都有机器人，只要说一声“给我热一下午餐”，它就能自己找到微波炉，再把菜端回来，人机交互直接迈入新时代。虽然“自然语言”很简洁，但现有的机器人开发还是依赖于“编程语言”。ChatGPT是一个基于大量文本和人类反馈训练得到的语言模型，能够针对各种各样的提示和问题产生连贯且语法正确的回应。这项研究的目的是观察ChatGPT是否能够在文本之外的领域进行思考，并推理出物理世界来帮助机器人完成任务。研究人员预期ChatGPT能够帮助用户更容易地与机器人交互，而不需要学习复杂的编程语言或机器人系统的细节，其中的关键难题就是教ChatGPT如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态，并以此来解决指定的任务。实验证明，ChatGPT可以独立完成很多工作，但是它仍然需要一些辅助，论文中描述了一系列的设计原则，可以用来指导语言模型解决机器人任务，包括但不限于特殊的提示结构、高级API和基于文本的人类反馈等，一场机器人系统的开发革命即将到来。全新的代码设计流程给大型语言模型写prompt是一门高度经验主义的科学，通过反复试验，研究人员建立了一套方法论和设计原则，专门用于为机器人任务撰写提示：1.定义了一组高级机器人API或函数库。这个库可根据特定的机器人类型进行设计，并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。对高级API使用的描述性名称非常重要，可以帮助ChatGPT推断函数的功能。2.为ChatGPT编写一个文本提示，用来描述任务目标，同时显式说明高级库中的哪些函数是可用的。提示中还可以包含有关任务约束的信息,或者ChatGPT应该如何组织它的答案，包括使用特定的编程语言，使用辅助解析组件等;3.用户在循环中评估ChatGPT的代码输出，可以直接执行代码以检查正确性，也可以使用模拟器。如果有需要的话，用户可以使用自然语言向ChatGPT提供有关答案质量和安全性的反馈。当用户对解决方案感到满意时，就可以将最终的代码部署到机器人上。ChatGPT+机器人能做什么？下面是几个例子，更完整的ChatGPT能力列表参见代码仓库。代码链接：https://github.com/microsoft/PromptCraft-RoboticsZero-shot任务规划当ChatGPT遇上无人机，研究人员首先让ChatGPT能够控制一台真正的无人机的全部功能，然后按照下面视频中进行的对话，实验结果证明，一个完全不懂技术的用户，只需要通过对话就能实现控制无人机，“自然语言”是一个非常直观、高效的用户接口。03:04当用户的指令含糊不清时，ChatGPT会要求用户进一步说明问题，并为无人机编写复杂的代码结构，例如飞行之字（zig-zag）图案，以便可视化地检查货架；甚至还能给用户来一张自拍。研究人员还在MicrosoftAirSim模拟器中对工业检查场景中使用ChatGPT进行模拟，结果显示该模型能够有效地解析用户的高级意图和几何线索，以准确地控制无人机。03:43复杂的任务需要用户参与反馈当把ChatGPT用于机械臂的操作场景时，研究人员使用“会话反馈”（conversationalfeedback）来教模型如何将最初提供的API组合成更复杂的高级函数，即ChatGPT自己内部编码的函数。使用以课程为基础（curriculum-based）的策略，ChatGPT能够将这些学到的技能有逻辑地链接在一起，以执行诸如堆叠块之类的操作。此外，还有一个例子能展现出ChatGPT的强大能力，研究人员要求模型用木块构建微软标志，即需要将文本域和物理域连接起来。ChatGPT不仅能够从内部知识库中回忆出微软的logo，还能够用SVG的代码“绘制”出这个标志，然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。02:16还有一个例子，研究人员让ChatGPT编写一个算法，让无人机在不撞上障碍物的情况下，在空中达到目标。只需要告诉模型，它操控的这架无人机有一个前向距离传感器，ChatGPT立即能够为算法编码了大部分关键构件，这个任务需要与人类进行一些对话，ChatGPT仅通过自然语言反馈就能进行局部代码修改。01:12在行动之前感知世界在算法决定做某事（action）之前能够感知世界（perception）是打造一个机器人系统的基础。为了测试ChatGPT对指定概念的理解，研究人员设计了一个框架，要求ChatGPT不断探索环境，让模型访问诸如目标检测和目标距离API之类的函数，直到找到用户指定的对象，整个过程称为感知-行动循环（Perception-actionloops）。在实验环节，研究人员进行了额外的实验来评估ChatGPT是否能够根据传感器的实时反馈来决定机器人应该去哪里，而不是让ChatGPT生成一个代码循环来做出这些决定。实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述，并且模型能够找出如何控制机器人，并驱使机器人到达一个特定的对象。01:42开源PromptCraft：收集有价值的prompt“良好的prompting工程”对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。但prompting完全是一门经验主义的科学、缺乏全面的总结，并且相关资源也很少，没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt为了弥补这一劣势，研究人员开源了一个平台PromptCraft，任何用户都可以在其上分享不同机器人类别的提示策略示例。这次研究项目的所有提示和对话都已经放在了仓库中，感兴趣的读者可以继续参与贡献！除了快速设计之外，研究人员还计划未来开发多个机器人模拟器和接口，以允许用户测试ChatGPT生成的算法性能，目前已经发布了一个集成ChatGPT的AirSim环境。把机器人带出实验室，走向世界微软发布这些技术的目的是将机器人技术推广到更广泛的受众，研究人员认为，基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。也就是说，ChatGPT的输出不应该在没有仔细分析的情况下直接部署在机器人上。通过在模拟环境中获得实验结果，能够在未来现实部署之前对算法进行评估，并采取必要的安全预防措施。...PC版：https://www.cnbeta.com.tw/articles/soft/1346449.htm手机版：https://m.cnbeta.com.tw/view/1346449.htm

为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍能“听懂人话”

为机器人安上“最强大脑”谷歌VLA新模型泛化能力提升3倍能“听懂人话”上文这个“抓起恐龙”的动作对于人类而言轻而易举，对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西，也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。作为一款新型视觉-语言-动作（vision-language-action，VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令。相较于其他机器人研究，RT-2的核心优势在于，其不仅能直接接收“人话”指令，听懂“人话”、理解“人话”，还能做出相应推理，并转为机器人能理解的分阶段指令，从而做出动作完成任务。RT-2完成的每一项任务，都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行任务，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应知识。总体而言，RT-2具备三大能力：符号理解（Symbolunderstanding）、推理（Reasoning）和人类识别（Humanrecognition）。（1）符号理解是指RT-2可以从视觉语言预训练中转移了语义知识，而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。图符号理解指令示例（2）推理则是将VLM的各种推理能力用于任务控制，包括视觉推理（“将苹果移到相同颜色的杯子里”）、数学推理（“将X移到2加1之和的附近”）、多语言理解（“muevelamanzanaalvasoverde”，西班牙语）。图推理指令示例（3）人类识别是以人类为中心的理解和识别能力，RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。图人类识别指令示例此外，研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。例如在下图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西可能能用上？”，RT-2转化得出了“石头。动作：1129138122132132106127”的指令，并拿起了石头。RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、VisualCortex（VC-1）等模型，RT-2泛化能力大幅提高，较前者提高了3倍有余。加利福尼亚大学伯克利分校的机器人学教授KenGoldberg表示，机器人的灵巧性仍达不到人类水平，在一些基本任务上也会失败，但Google利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。...PC版：https://www.cnbeta.com.tw/articles/soft/1374045.htm手机版：https://m.cnbeta.com.tw/view/1374045.htm

Google发布史上最大“通才”模型PaLM-E 看图说话还能操控机器人

Google发布史上最大“通才”模型PaLM-E看图说话还能操控机器人论文地址：https://arxiv.org/abs/2303.03378作为一种多模态具身视觉语言模型(VLM)，PaLM-E不仅可以理解图像，还能理解、生成语言，而且竟然还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。横跨机器人、视觉-语言领域的“通才”模型PaLM-E，全称PathwaysLanguageModelwithEmbodied，是一种具身视觉语言模型。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。当我们训练出最大的视觉语言模型，并与机器人结合后，会发生什么？结果就是PaLM-E，一个5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言据论文介绍，PaLM-E是一个仅有解码器的LLM，在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。经过单个图像提示训练，PaLM-E不仅可以指导机器人完成各种复杂的任务，还可以生成描述图像的语言。可以说，PaLM-E展示了前所未有的灵活性和适应性，代表着一次重大飞跃，特别是人机交互领域。更重要的是，研究人员证明，通过在多个机器人和一般视觉语言的不同混合任务组合进行训练，可以带来从视觉语言转移到具身决策的几种方法，让机器人规划任务时能够有效地利用数据。除此之外，PaLM-E尤为突出的一点在于，拥有强大的正迁移能力。在不同领域训练的PaLM-E，包括互联网规模的一般视觉-语言任务，与执行单一任务机器人模型相比，性能明显提高。而在模型尺度上，研究人员则观察到了一个显著的优势。语言模型越大，在视觉语言与机器人任务的训练中，保持的语言能力就越强。从模型规模来看，5620亿参数的PaLM-E几乎保持了它所有的语言能力。尽管只在单个图像进行训练，但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。在OK-VQA基准上，PaLM-E取得了新的SOTA。测评结果在测试中，研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。值得注意的是，所有这些结果都是使用基于相同数据训练的相同模型获得的。在以前，机器人通常需要人工的协助才能完成长跨度任务。但现在，PaLM-E通过自主学习就可以搞定了。比如，“从抽屉里拿出薯片”这类指令中，就包括了多个计划步骤，以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E，可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中，所以机器人在拿薯片的过程中，对途中的干扰都有鲁棒性。人类：给我来点薯片。机器人：1.走到抽屉旁2.打开最上面的抽屉3.从最上面的抽屉里拿起绿色的薯片4.放在柜台上。同样，让机器人去拿一个苹果时，给出图片后，机器人执行任务步骤如下——人类：给我拿一个苹果。机器人：1.走向苹果2.拿起苹果3.把它拿给操作员4.放下苹果5.完成。除了执行长跨度任务，PaLM-E可以让机器人执行规划任务，比如排列积木。研究人员根据视觉和语言输入成功地进行多阶段的计划，并结合了长时间范围的视觉反馈，进而让模型能够成功地规划一个长周期的任务“将积木按颜色分类到不同的角落”。如下，在排列组合上，机器人化身为多面手，按颜色将积木排序。模型的泛化方面，PaLM-E控制的机器人可以把红色积木移到咖啡杯的旁边。值得一提的是，数据集只包含有咖啡杯的三个演示，但其中没有一个包括红色的积木块。类似的，虽然模型此前从未见过乌龟，但照样可以顺利地把绿色积木推到乌龟旁边在零样本推理方面，PaLM-E可以在给定图像的情况下讲述笑话，并展示了包括感知，基于视觉的对话和计划在内的能力。多张图的关系，PaLM-E也整得很明白，比如图一（左）在图二（右）的哪个位置。此外，PaLM-E还可以在给定带有手写数字的图像执行数学运算。比如，如下手写餐馆的菜单图，2张披萨需要多少钱，PaLM-E就直接给算出来了。以及一般的QA和标注等多种任务。最后，研究结果还表明，冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时，研究人员还发现了一条解冻模型的替代路线，即扩大语言模型的规模可以显著减少灾难性遗忘。参考资料：https://palm-e.github.io/...PC版：https://www.cnbeta.com.tw/articles/soft/1348415.htm手机版：https://m.cnbeta.com.tw/view/1348415.htm

Open X-Embodiment：迄今为止最大的开源机器人数据集

：迄今为止最大的开源机器人数据集包含100多万条来自22个不同机器人平台的实机轨迹数据，汇集了全球34个机器人研究实验室的60个现有数据集。基于该数据集训练了两个模型：1)RT-1，一个高效的基于Transformer的机器人控制架构；2)RT-2，一个大规模的视觉语言模型，通过自然语言Token输出机器人动作。RT-1-X是在机器人数据混合上训练的RT-1模型。RT-2-X是在机器人数据混合上训练的RT-2模型。结果显示，RT-1-X在分布内技能上的表现优于只在单个数据集上训练的原始方法；RT-2-X在新技能上的表现较RT-2提升了3倍，展现了更好的空间理解能力。本项目由来自21个机构的研究人员合作完成，为探索通用的机器人策略奠定了基础，以实现机器人经验的有效迁移。

Google RT-2 VLA模型可帮助机器人更快速地在融入新环境并开始工作

GoogleRT-2VLA模型可帮助机器人更快速地在融入新环境并开始工作该公司表示，训练机器人可能是一项"艰巨的工作"，因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过，Google表示，RT-2为更多的通用机器人带来了巨大的发展前景。虽然该公司对RT-2所能带来的好处感到兴奋，但它表示，要让机器人在以人为中心的环境中发挥作用，还有很多工作要做。DeepMind认为，通用物理机器人可以从VLA模型中产生，它们可以推理、解决问题和解释信息，以执行现实世界中的任务。顾名思义，这并不是机器人变形VLA模型的第一次迭代。DeepMind表示，RT-2建立在RT-1的基础上，与之前的模型相比，泛化能力有所提高，在新的、未见过的任务上表现更好。与前代机器人相比，RT-2的另一项新技能是符号推理，这意味着它能理解抽象概念并对其进行逻辑操作。其中一个例子是，机器人被要求将巴纳移动到2加1的总和处，尽管它并没有接受过抽象数学或符号操作的明确训练，但它还是正确地完成了任务。虽然RT-2是机器人技术向前迈出的一大步，但宣布终结者机器人已经到来并不公平。该模型仍然需要人类的输入和监督，并且在实际机器人操作中会遇到很大的技术限制。尽管如此，我们还是希望它能带来一些有趣的机器人，完成以前不可能或不容易完成的任务。...PC版：https://www.cnbeta.com.tw/articles/soft/1373747.htm手机版：https://m.cnbeta.com.tw/view/1373747.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人