瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源

瑜伽球上训练出来的机器狗比大多数健身者更能灵活运用训练资源DrEureka是一个任何人都可以获取的开源软件包，用于使用大型语言模型（LLM）（如ChatGPT4）训练机器人执行现实世界中的任务。这是一个"模拟到现实"系统，也就是说，它在虚拟环境中使用模拟物理原理对机器人进行教学，然后再在现实空间中实施。吉姆-范（JimFan）博士是DrEureka的开发者之一，他部署的UnitreeGo1四足机器人一跃成为头条新闻。这是一款"低成本"、支持良好的开源机器人--这很方便，因为即使有了人工智能，机器人宠物仍然很容易摔伤。至于"低成本"，它在亚马逊上的售价为5899美元，评分为1星……DrEureka中的"Dr"代表"领域随机化"，即在模拟环境中随机化摩擦、质量、阻尼、重心等变量。只需在ChatGPT等LLM中输入一些提示，人工智能就能编写代码，创建一个奖励/惩罚系统，在虚拟空间中训练机器人，其中0=失败，高于0则为胜利。得分越高越好。它可以通过最小化和最大化球的弹跳力、运动强度、肢体自由度和阻尼等方面的失效点/爆发点来创建参数。作为一个LLM，它可以毫不费力地大量创建这些参数，供训练系统同时运行。每次模拟后，GPT还可以反思虚拟机器人的表现，以及如何改进。如果超出或违反参数，例如电机过热或试图以超出其能力的方式衔接肢体，都将导致0分...没有人喜欢得零分，人工智能也不例外。提示LLM编写代码需要安全指令--否则，研究小组发现GPT会努力追求最佳性能，会在没有指导的情况下在模拟中"作弊"。这在模拟中没有问题，但在现实生活中可能会导致电机过热或肢体过度伸展，从而损坏机器人--研究人员称这种现象为"退化行为"。虚拟机器人自学成才的非自然行为的一个例子是，它发现自己可以更快地移动，方法是将臀部插入地面，用三只脚拖着臀部在地板上窜来窜去。虽然这在模拟中是一种优势，但当机器人在现实世界中尝试时就尴尬了。因此，研究人员指示GPT要格外小心，因为机器人将在真实世界中接受测试--为此，GPT创建了安全功能，如平滑动作、躯干方向、躯干高度，并确保机器人的电机不会扭矩过大。如果机器人作弊，违反了这些参数，其奖励函数就会降低得分。安全功能可以减少退化和不自然的行为，比如不必要的骨盆推力。那么它的表现如何呢？比我们强。DrEureka在训练机器人"pooch"的过程中击败了人类，在实际的混合地形中，它的前进速度和行进距离分别提高了34%和20%。DrEureka基于GPT的训练系统在现实世界中轻松击败人类训练的机器人如何做到？研究人员认为，这与教学方式有关。人类倾向于课程式的教学环境--把任务分解成一个个小步骤，并试图孤立地解释它们，而GPT能够有效地一次性传授所有知识。这是我们根本无法做到的。DrEureka是同类产品中的首创。它能够从模拟世界"零距离"进入现实世界。想象一下，在对周围世界几乎一无所知的情况下，你被推出巢穴，只能自己摸索。这就是"零镜头"。DrEureka的创造者认为，如果他们能向GPT提供真实世界的反馈，就能进一步改进模拟到现实的训练。目前，所有的模拟训练都是利用机器人自身本体感觉系统的数据完成的，但如果GPT能够通过真实世界的视频画面看到出错的地方，而不是仅仅从机器人的日志中读取执行失败的信息，那么它就能更有效地完善自己的指令。人类平均需要一年半的时间才能学会走路，而大概只有百分之一的人类能在瑜伽球上学会走路。您可以在这里观看一段未经剪辑的4分33秒视频，视频中机器人狗狗轻松在瑜伽球上散步，且没有停下来在消防栓上撒尿：...PC版：https://www.cnbeta.com.tw/articles/soft/1429963.htm手机版：https://m.cnbeta.com.tw/view/1429963.htm

在Telegram中查看

相关推荐

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架，旨在训练人形机器人的运动技能，强调从模拟到现实

一个基于NvidiaIsaacGym的易于使用的强化学习(RL)框架，旨在训练人形机器人的运动技能，强调从模拟到现实环境的零样本迁移。Humanoid-Gym还集成了从IsaacGym到Mujoco的sim-to-sim框架，允许用户在不同的物理模拟中验证训练好的策略，以确保策略的鲁棒性和泛化性。该代码库由RobotEra的XBot-S（1.2米高的人形机器人）和XBot-L（1.65米高的人形机器人）在现实环境中进行了验证，具有零样本模拟到真实的传输。#框架

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。英伟达科学家，也是此次共同作者之一JimFan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构，外循环运行GPT-4来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。主要有三个关键组成部分：模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习，可以快速评估大量候选奖励。奖励反射rewardreflection，得益于GPT-4评估和修改能力，一步步迭代。首先，无需任何特定提示工程和奖励模版。使用原始IsaacGym（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成，但由IsaacGym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。最后，依赖于奖励反射，Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。甚至在少数情况下，AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略，人类看不懂学不会，但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是，近半数研究人员都是华人。一作是YechengJasonMa，目前是宾大GRASP实验室的四年级博士生，研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳，不过至于网友提到的弹钢琴，JimFan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）...PC版：https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版：https://m.cnbeta.com.tw/view/1391745.htm

机器人时代已来黄仁勋指向AI下一波浪潮：物理AI

机器人时代已来黄仁勋指向AI下一波浪潮：物理AI他着重强调了机器人和AI在未来发展中的重要性——“AI的新一波浪潮是物理AI。AI能够理解物理定律，并与人类并肩作战……机器人和物理AI正在成为现实，而不仅是出现在科幻小说中，这真的很让人兴奋。”什么是“物理AI”？物理AI英文为PhysicalAI，也称“实体AI”。瑞士联邦材料科学与技术实验室AslanMiriyev和伦敦帝国理工学院MirkoKovač之前在《NatureMachineIntelligence》发表的一篇文章中，曾如此定义“物理AI”：物理AI是指能够执行通常与智能生物体相关的任务的实体系统，可以实现机体、控制、形态、动作执行和感知的协同进化。在这次演讲中，黄仁勋表示，如今大多数AI并不理解物理定律，不以物质世界为基础。而生成图像、视频、3D图形和许多物理现象，需要基于物理并理解物理定律的AI。“为我们工作的AI，必须理解世界模型，才能理解如何解释世界、如何感知世界。”世界各地的研究人员和公司正在开发由物理AI驱动的机器人，这些AI模型能够理解指令，并在现实世界中自主执行复杂任务。机器人时代已经到来机器人是一个颇为广泛的概念。黄仁勋表示，当他提到“机器人”时，通常大家会想到人形机器人，“但这并不完全正确。一切都将是机器人。”机器人将遍布所有工厂，工厂将实现对机器人的统筹，而这些机器人将制造新的机器人产品。在黄仁勋的构想中，下一个由机器人工厂内的机器人制造的高产量机器人产品可能是人形机器人，最容易适应世界的机器人也是人形机器人。“机器人时代已经到来，AI的下一波浪潮已经到来，”站在各式各样的机器人投影屏幕前，黄仁勋张开双臂，宣告全新时代的揭幕，“由物理AI驱动的机器人技术将彻底改变行业。这不是未来，这正在发生。”在英伟达的产品中，有多项内容与机器人有关，包括用于模拟应用的NVIDIAOmniverse平台、ProjectGR00T人形机器人通用基础模型、JetsonThor机器人计算机、NVIDIAIsaac平台等，比亚迪电子、西门子、泰瑞达等公司也正在将英伟达自主机器人技术集成到自家工厂中。英伟达内部也已组建研究小组GEAR，全称GeneralistEmbodiedAgentResearch，意为“通用具身智能体研究”。该小组领头人之一、英伟达高级研究科学家JimFan彼时也给出了与黄仁勋相似的说法：未来每一台移动的机器都将是自主的，机器人与模拟智能体将和iPhone一样无处不在。“我们正在打造基础智能体：一个具备通用能力的AI，其能在虚拟与现实的多个世界中学习如何熟练行动。2024年将是机器人之年、游戏AI之年、模拟之年。”值得一提的是，随着AI的这一把火从聊天机器人烧向人形机器人，加码投资的自然也不止英伟达一家巨头。上周OpenAI被曝已重启此前被放弃的机器人团队，一位接近OpenAI的知情人士表示，这个新组建的机器人团队已经初步形成，并已经运作了大约两个月的时间。OpenAI副总裁、前机器人团队成员PeterWelinder表示，“我们始终计划重返机器人领域，与FigureAI的合作为我们指明了一条道路，即探索在高性能多模态模型驱动下，人形机器人能够取得的卓越成就。”...PC版：https://www.cnbeta.com.tw/articles/soft/1433383.htm手机版：https://m.cnbeta.com.tw/view/1433383.htm

训练出ChatGPT需要消耗多少电力？

训练出ChatGPT需要消耗多少电力？微软、谷歌和ChatGPT制造商OpenAI都要使用云计算，而云计算依赖于全球海量数据中心服务器内数以千计的芯片来训练被称为模型的AI算法，分析数据以帮助这些算法“学习”如何执行任务。ChatGPT的成功促使其他公司竞相推出自己的AI系统和聊天机器人，或者开发使用大型AI模型的产品。与其他形式的计算相比，AI需要使用更多的能源，训练单个模型消耗的电力超过100多个美国家庭1年的用电量。然而，虽然AI行业增长非常快，但却不够透明，以至于没有人确切知道AI的总用电量和碳排放量。碳排放量也可能有很大差异，这取决于提供电力的发电厂类型，靠烧煤或天然气发电供电的数据中心，碳排放量显然高于太阳能或风力发电支持的数据中心。虽然研究人员已经统计了创建单一模型所产生的碳排放量，有些公司也提供了有关他们能源使用的数据，但他们没有对这项技术的总用电量进行总体估计。AI公司HugingFace研究员萨莎·卢西奥尼（SashaLuccioni）写了一篇论文，量化了她旗下公司Bloom的碳排放情况，Bloom是OpenAI模型GPT-3的竞争对手。卢西奥尼还试图根据一组有限的公开数据，对OpenAI聊天机器人ChatGPT的碳排放情况进行评估。提高透明度卢西奥尼等研究人员表示，在AI模型的电力使用和排放方面，需要提高透明度。有了这些信息，政府和公司可能会决定，使用GPT-3或其他大型模型来研究癌症治疗或保护土著语言是否值得。更高的透明度也可能带来更多的审查，加密货币行业可能会提供前车之鉴。根据剑桥比特币电力消耗指数，比特币因其耗电量过大而受到批评，每年的耗电量与阿根廷一样多。这种对电力的贪婪需求促使纽约州通过了一项为期两年的禁令，暂停向以化石燃料发电供电的加密货币采矿商发放许可证。GPT-3是功能单一的通用AI程序，可以生成语言，具有多种不同的用途。2021年发表的一篇研究论文显示，训练GPT-3耗用了1.287吉瓦时电量，大约相当于120个美国家庭1年的用电量。同时，这样的训练产生了502吨碳，相当于110辆美国汽车1年的排放量。而且，这种训练只适用于一个程序，或者说是“模型”。虽然训练AI模型的前期电力成本巨大，但研究人员发现，在某些情况下，这只是模型实际使用所消耗电力的40%左右。此外，AI模型也在变得越来越大。OpenAI的GPT-3使用了1750亿个参数或变量，而其前身仅使用了15亿个参数。OpenAI已经在研究GPT-4，而且必须定期对模型进行再训练，以保持其对时事的了解。卡内基梅隆大学教授艾玛·斯特鲁贝尔（EmmaStrubell）是首批研究AI能源问题的研究人员之一，她说：“如果你不对模型进行再训练，它甚至可能不知道何为新冠肺炎。”另一个相对的衡量标准来自谷歌，研究人员发现，AI训练占该公司总用电量的10%至15%，2021年该公司的总用电量为18.3太瓦时。这意味着，谷歌的AI每年耗电量达2.3太瓦时，大约相当于亚特兰大所有家庭的1年用电量。科技巨头做出净零承诺虽然在许多情况下，AI模型变得越来越大，但AI公司也在不断改进，使其以更高效的方式运行。微软、谷歌和亚马逊等美国最大的云计算公司，都做出了碳减排或净零承诺。谷歌在一份声明中表示，到2030年，该公司将在所有业务中实现净零排放，其目标是完全使用无碳能源运营其办公室和数据中心。谷歌还在使用AI来提高其数据中心的能效，该技术直接控制设施中的冷却系统。OpenAI也列举了该公司为提高ChatGPT应用程序编程接口的效率所做的工作，帮助客户降低了用电量和价格。OpenAI发言人表示：“我们非常认真地承担起阻止和扭转气候变化的责任，我们对如何最大限度地利用我们的计算能力进行了很多思考。OpenAI运行在Azure上，我们与微软团队密切合作，以提高运行大型语言模型的效率并减少碳排放。”微软指出，该公司正在购买可再生能源，并采取其他措施，以实现之前宣布的目标，即到2030年实现净零排放。微软在声明中称：“作为我们创造更可持续性未来承诺的一部分，微软正在投资于研究，以衡量AI的能源使用和碳排放影响，同时致力于提高大型系统在培训和应用方面的效率。”耶路撒冷希伯来大学教授罗伊·施瓦茨（RoySchwartz）与微软的一个团队合作，测量了一个大型AI模型的碳足迹。他表示：“显然，这些公司不愿透露他们使用的是什么模型，以及它排放了多少碳。”有些方法可以让AI更高效地运行。能源咨询公司WoodMackenzie的本·赫兹-沙格尔（BenHertz-Shargel）表示，由于AI训练可以随时进行，开发者或数据中心可以将训练安排在电力更便宜或过剩的时候，从而使它们的运营更加环保。AI公司在电力过剩时训练自己的模型，然后可以在营销中将其当成一大卖点，以此表明他们注重环保。芯片运行耗电量惊人大多数数据中心使用图形处理单元（GPU）来训练AI模型，这些组件是芯片行业制造的最耗电组件之一。摩根士丹利分析师本月早些时候发布的一份报告称，大型模型需要数万个GPU，培训周期从几周到几个月不等。AI领域更大的谜团之一是与所使用芯片相关的碳排放总量。最大的GPU制造商英伟达表示，当涉及到AI任务时，他们的芯片可以更快地完成任务，总体上效率更高。英伟达在声明中表示：“与使用CPU相比，使用GPU来加速AI速度更快，也更高效。对于某些AI工作负载来说，能效通常可以提高20倍，对于生成式人工智能必不可少的大型语言模型，能效则可提高300倍。”卢西奥尼说，虽然英伟达已经披露了与能源相关的直接排放和间接排放数据，但该公司并没有透露更多细节。她认为，当英伟达分享这些信息时，我们可能发现GPU消耗的电量与一个小国用电量差不多，“这可能会让人抓狂”！...PC版：https://www.cnbeta.com.tw/articles/soft/1348809.htm手机版：https://m.cnbeta.com.tw/view/1348809.htm

《金融时报》推出根据数十年文章内容库训练出来的AI机器人Ask FT

《金融时报》推出根据数十年文章内容库训练出来的AI机器人AskFT当我们问"谁负责微软的人工智能产品？"时，该工具返回了最新的答案，并提到了本周爆出的微软聘请DeepMind联合创始人穆斯塔法-苏莱曼（MustafaSuleyman）担任其新人工智能团队负责人的消息：穆斯塔法-苏莱曼（MustafaSuleyman）目前作为微软人工智能（MicrosoftAI）的负责人，负责管理微软面向消费者的人工智能产品和部门，直接向萨蒂亚-纳德拉（SatyaNadella）汇报工作[1,2,3]。他是从InflectionAI公司调来的，目的是扩大微软为个人消费者开发生成式人工智能的重点[1,2,3,4,6]。括号中的数字对应的是它从FT文章中提取的信息，并列在答案下方。它还提供了这些文章的写作时间段。在微软公司的这道题中，它说它从2023年3月1日到2024年3月20日提取了信息。不过，我们发现有些答案并不一致。在我们进行测试时，该工具在回答"目前谁正在参加2024年美国总统大选"的问题时，将尼基-海利（NikkiHaley）列入了答案，尽管她已经退出了竞选。FT专业版的几百名付费用户可以使用它，该版面向商业专业人士和机构。AskFT目前由Anthropic开发的大型语言模型（LLM）Claude提供支持，但这种情况可能会发生变化。FT首席产品官林赛-杰恩（LindseyJayne）表示，该媒体正在"以'不可知模型'的方式来处理这个问题，看看哪一种最符合我们的需求"。它可以回答有关时事的问题，如英特尔根据《CHIPS法案》从美国政府获得了多少资金，也可以回答更广泛的问题，如加密货币对环境的影响。然后，该工具会收集《金融时报》的档案，并通过引用总结相关信息。AskFT还将回答需要深入挖掘《金融时报》档案的问题。当被问及YouTube如何起步时，它正确地回答说，YouTube是由ChadHurley、SteveChen和JawedKarim于2005年2月创办的。杰恩说："我们在内部进行了大量的测试，并利用这些测试来改进我们指导模型和构建代码的方式。在第一批500人中，我们正在跟踪每一个问题和回答，以及用户的反馈"。去年，我们试用了市场营销公司Foundry旗下数字媒体（包括Macworld、PCWorld和TechAdvisor）部署的类似工具。不过，当时它并不像AskFT那样有用；我的同事MiaSato发现，它对一些简单的问题（如上一款iPodNano是什么时候发布的）提供的结果并不准确。杰恩说："我认为，如果不持续不断发展并迎接这些时刻，就不可能成为一家拥有135年历史的机构。但必须要聪明，不能一味地炒作......否则人们只是为了新奇而玩玩，然后继续过自己的生活。"大多数用户现在还不能试用聊天机器人。AskFT目前仍处于测试阶段，英国《金融时报》将继续对其进行测试和评估。...PC版：https://www.cnbeta.com.tw/articles/soft/1424922.htm手机版：https://m.cnbeta.com.tw/view/1424922.htm

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！这个机器人被Google命名为RoboticTransformer2(RT-2)，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示：这真是泰酷辣！GoogleDeepMind负责人表示，长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈RoboticTransformer1（RT-1）为RT-2打下了坚实的基础。01RT-1升级RT-2，VLM到VLART-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。RT-1的架构：该模型采用文本指令和图像集作为输入，通过预先训练的FiLMEfficientNet模型将它们编码为token，并通过TokenLearner压缩它们。然后将这些输入到Transformer中，Transformer输出操作token因此，与一般机器相比，RT-1具有更好的性能和泛化能力。其中，RT-1所搭载的视觉语言模型（vision-languagemodels，VLMs）扮演了关键角色。VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础，是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作（action）的模态。为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如“1128912415101127217”于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。具体来讲，Google团队探索了RT-2的三项技能：-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例，需要通过网络预训练进行知识迁移在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和VisualCortex(VC-1)等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率：RT-2模型优于RT-1和VC-1基线此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1任务，然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示(R3M)，以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。团队还在开源语言表（LanguageTable）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。然后，研究人员还对数据进行了扩充，添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。示例如下：思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。通过将VLM预训练与机器人数据相结合，可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。或许，机器人总动员中，那个聪明的瓦力离我们不远了。...PC版：https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版：https://m.cnbeta.com.tw/view/1373899.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人