“终结者”走入现实?微软的野心:用ChatGPT控制机器人

“终结者”走入现实?微软的野心:用ChatGPT控制机器人不过,现在的ChatGPT只会动动嘴皮子,并没有任何接触现实物理世界的能力,顶多也就是当个科幻小说看看。但要是ChatGPT真的可以操控机器人呢?最近,微软发表了一篇论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。不过微软的目标并非是“毁灭世界”,而是加快机器人的开发速度。实际上在现代的生活和生产流程中,处处都离不开机器人,从工厂里制造产品的机械臂,到家庭里用的吸尘器,都可以算作是机器人(robot)。每次想开发一个新产品,或者让现有的机器执行一个新功能,都需要一个高级工程师编写代码,同时尽可能编写测试覆盖所有场景。微软在论文中提出了一套新的设计原则,通过ChatGPT这样的大型语言模型来给机器人提供指令。ChatGPT:机器人控制器ChatGPT之所以爆火,其根本原因就在于:AI终于在一定程度上能“听懂人话”了,而非只是按照语法胡乱生成内容;而且它的功能也很强大,问答、写论文、写诗、写代码,只要prompt写得够好,ChatGPT的表现也会更惊人。要是把这种能力迁移到机器人身上,假设几十年以后,各家各户都有机器人,只要说一声“给我热一下午餐”,它就能自己找到微波炉,再把菜端回来,人机交互直接迈入新时代。虽然“自然语言”很简洁,但现有的机器人开发还是依赖于“编程语言”。ChatGPT是一个基于大量文本和人类反馈训练得到的语言模型,能够针对各种各样的提示和问题产生连贯且语法正确的回应。这项研究的目的是观察ChatGPT是否能够在文本之外的领域进行思考,并推理出物理世界来帮助机器人完成任务。研究人员预期ChatGPT能够帮助用户更容易地与机器人交互,而不需要学习复杂的编程语言或机器人系统的细节,其中的关键难题就是教ChatGPT如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态,并以此来解决指定的任务。实验证明,ChatGPT可以独立完成很多工作,但是它仍然需要一些辅助,论文中描述了一系列的设计原则,可以用来指导语言模型解决机器人任务,包括但不限于特殊的提示结构、高级API和基于文本的人类反馈等,一场机器人系统的开发革命即将到来。全新的代码设计流程给大型语言模型写prompt是一门高度经验主义的科学,通过反复试验,研究人员建立了一套方法论和设计原则,专门用于为机器人任务撰写提示:1.定义了一组高级机器人API或函数库。这个库可根据特定的机器人类型进行设计,并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。对高级API使用的描述性名称非常重要,可以帮助ChatGPT推断函数的功能。2.为ChatGPT编写一个文本提示,用来描述任务目标,同时显式说明高级库中的哪些函数是可用的。提示中还可以包含有关任务约束的信息,或者ChatGPT应该如何组织它的答案,包括使用特定的编程语言,使用辅助解析组件等;3.用户在循环中评估ChatGPT的代码输出,可以直接执行代码以检查正确性,也可以使用模拟器。如果有需要的话,用户可以使用自然语言向ChatGPT提供有关答案质量和安全性的反馈。当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。ChatGPT+机器人能做什么?下面是几个例子,更完整的ChatGPT能力列表参见代码仓库。代码链接:https://github.com/microsoft/PromptCraft-RoboticsZero-shot任务规划当ChatGPT遇上无人机,研究人员首先让ChatGPT能够控制一台真正的无人机的全部功能,然后按照下面视频中进行的对话,实验结果证明,一个完全不懂技术的用户,只需要通过对话就能实现控制无人机,“自然语言”是一个非常直观、高效的用户接口。03:04当用户的指令含糊不清时,ChatGPT会要求用户进一步说明问题,并为无人机编写复杂的代码结构,例如飞行之字(zig-zag)图案,以便可视化地检查货架;甚至还能给用户来一张自拍。研究人员还在MicrosoftAirSim模拟器中对工业检查场景中使用ChatGPT进行模拟,结果显示该模型能够有效地解析用户的高级意图和几何线索,以准确地控制无人机。03:43复杂的任务需要用户参与反馈当把ChatGPT用于机械臂的操作场景时,研究人员使用“会话反馈”(conversationalfeedback)来教模型如何将最初提供的API组合成更复杂的高级函数,即ChatGPT自己内部编码的函数。使用以课程为基础(curriculum-based)的策略,ChatGPT能够将这些学到的技能有逻辑地链接在一起,以执行诸如堆叠块之类的操作。此外,还有一个例子能展现出ChatGPT的强大能力,研究人员要求模型用木块构建微软标志,即需要将文本域和物理域连接起来。ChatGPT不仅能够从内部知识库中回忆出微软的logo,还能够用SVG的代码“绘制”出这个标志,然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。02:16还有一个例子,研究人员让ChatGPT编写一个算法,让无人机在不撞上障碍物的情况下,在空中达到目标。只需要告诉模型,它操控的这架无人机有一个前向距离传感器,ChatGPT立即能够为算法编码了大部分关键构件,这个任务需要与人类进行一些对话,ChatGPT仅通过自然语言反馈就能进行局部代码修改。01:12在行动之前感知世界在算法决定做某事(action)之前能够感知世界(perception)是打造一个机器人系统的基础。为了测试ChatGPT对指定概念的理解,研究人员设计了一个框架,要求ChatGPT不断探索环境,让模型访问诸如目标检测和目标距离API之类的函数,直到找到用户指定的对象,整个过程称为感知-行动循环(Perception-actionloops)。在实验环节,研究人员进行了额外的实验来评估ChatGPT是否能够根据传感器的实时反馈来决定机器人应该去哪里,而不是让ChatGPT生成一个代码循环来做出这些决定。实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述,并且模型能够找出如何控制机器人,并驱使机器人到达一个特定的对象。01:42开源PromptCraft:收集有价值的prompt“良好的prompting工程”对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。但prompting完全是一门经验主义的科学、缺乏全面的总结,并且相关资源也很少,没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt为了弥补这一劣势,研究人员开源了一个平台PromptCraft,任何用户都可以在其上分享不同机器人类别的提示策略示例。这次研究项目的所有提示和对话都已经放在了仓库中,感兴趣的读者可以继续参与贡献!除了快速设计之外,研究人员还计划未来开发多个机器人模拟器和接口,以允许用户测试ChatGPT生成的算法性能,目前已经发布了一个集成ChatGPT的AirSim环境。把机器人带出实验室,走向世界微软发布这些技术的目的是将机器人技术推广到更广泛的受众,研究人员认为,基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。也就是说,ChatGPT的输出不应该在没有仔细分析的情况下直接部署在机器人上。通过在模拟环境中获得实验结果,能够在未来现实部署之前对算法进行评估,并采取必要的安全预防措施。...PC版:https://www.cnbeta.com.tw/articles/soft/1346449.htm手机版:https://m.cnbeta.com.tw/view/1346449.htm

相关推荐

封面图片

Google打造“终结者”ChatGPT版最强机器人AGI 动嘴操控007

Google打造“终结者”ChatGPT版最强机器人AGI动嘴操控007论文地址:https://robotics-transformer2.github.io/assets/rt2.pdf根据Google内部披露,VLA模型已经接入到机器人身上,能够和现实世界进行互动了!这个机器人被Google命名为RoboticTransformer2(RT-2),它能够从网络、机器人的数据中学习,还能将这些知识自主转化为有效的指令。简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。网友们纷纷表示:这真是泰酷辣!GoogleDeepMind负责人表示,长期以来,计算机在分析数据等复杂任务方面表现出色,但在识别和移动物体等简单任务方面却不尽如人意。通过RT-2,我们正在缩小这一差距,帮助机器人解读世界并与之互动,让其对人类更加有用。但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈RoboticTransformer1(RT-1)为RT-2打下了坚实的基础。01RT-1升级RT-2,VLM到VLART-1是一种多任务模型,基于Transformer构建,能够将图像、自然语言指令等作为输入,并直接输出标记化动作。RT-1的架构:该模型采用文本指令和图像集作为输入,通过预先训练的FiLMEfficientNet模型将它们编码为token,并通过TokenLearner压缩它们。然后将这些输入到Transformer中,Transformer输出操作token因此,与一般机器相比,RT-1具有更好的性能和泛化能力。其中,RT-1所搭载的视觉语言模型(vision-languagemodels,VLMs)扮演了关键角色。VLM在互联网级的数据集上进行训练,因此在识别视觉、语言和跨语言合作这块具有极高水平。在RT-1基础上升级过的RT-2仍以VLM为基础,是Google研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。但RT-2比RT-1多了一个机器动作(action)的模态。为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示:RT-2训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如“1128912415101127217”于是,解决加入动作模态(action)将模型与机器进行联结的挑战后,VLM就升级为了VLA。RT-2也在一系列的升级换代后,显示出了惊人的学习能力和理解能力:它能够自己解释全新的命令,通过执行基本推理来响应用户的要求。甚至在与思想链推理结合的情况下,RT-2能够执行多阶段的语义推理。如,决定哪个物体可以用作临时的锤子(石头),或者哪种类型的饮料最适合疲倦的人(一种能量饮料)。RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作02泛化能力提升62%研究人员在在RT-2模型上进行了一系列定性和定量实验,一共进行了6,000多次机器人试验。具体来讲,Google团队探索了RT-2的三项技能:-符号理解-推理-人类识别以上的每项任务都需要理解视觉语义概念,以及执行机器人控制的能力。比如,让RT-2去捡起从桌子上掉下来的袋子,或者将香蕉放到2+1之和的数字的命令。其中要求机器人对数据中从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的。数据中不存在的技能示例,需要通过网络预训练进行知识迁移在所有类别中,研究人员观察到,与之前的基线(例如之前的RT-1模型和VisualCortex(VC-1)等模型)相比,泛化性能提高了3倍以上,这些模型是在大型视觉数据集上进行预训练的。紧急技能评估的成功率:RT-2模型优于RT-1和VC-1基线此外,研究人员还进行了一系列定量评估,首先是机器人数据中有实例的原始RT-1任务,然后对机器人先前未见过的物体、背景和环境。以上的任务可以让机器人从VLM预训练中学习泛化。机器人以前未见过的环境示例RT-2保留了数据中“看到”的原始任务的能力,并提高了机器人在以前未见过场景中的性能,从RT-1的32%提高到了62%。研究人员还观察到,与仅视觉任务预训练的基线相比有显着改进,例如VC-1和机器人操作的可重用表示(R3M),以及使用VLM进行对象识别的算法。RT-2在可见的分布内任务上取得了高性能,并且在分布外未见的任务上优于多个基线。团队还在开源语言表(LanguageTable)机器人任务套件上评估了模型,模拟中的成功率高达90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基线模型有了大幅提高。然后,他们还在现实世界中评估相同的模型,并展示了其泛化到新对象的能力。如下所示,其中除了蓝色立方体之外,没有任何物体出现在训练中数据集。RT-2在真实机器人语言表任务中表现良好受到LLM中使用的CoT方法的启发,研究人员还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。特别是,对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。然后,研究人员还对数据进行了扩充,添加了一个额外的“计划”步骤。首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。示例如下:思想链推理能够学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。得益于VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。03通用机器人前景RT-2的最新研究表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型。通过将VLM预训练与机器人数据相结合,可以直接控制机器人。基于大模型PaLM-E和PaLI-X的两个实例化,RT-2提升了机器人的策略。更重要的是,还带来了显着更好的泛化能力、以及应对突发问题的能力,继承了网络规模的视觉语言预-训练。RT-2不仅是对现有VLM模型的简单,而有效的修改,而且还展示了构建通用实体机器人的前景。该机器人可以推理、解决问题和解释信息,以在现实中执行各种任务世界。或许,机器人总动员中,那个聪明的瓦力离我们不远了。...PC版:https://www.cnbeta.com.tw/articles/soft/1373899.htm手机版:https://m.cnbeta.com.tw/view/1373899.htm

封面图片

微软使用ChatGPT训练机器人为人类日常生活服务

微软使用ChatGPT训练机器人为人类日常生活服务微软研究人员表示:“我们这项研究的目标是看看ChatGPT是否能超越生成文本的范畴,对现实世界状况进行推理,从而帮助机器人完成任务。”微软研究人员想象,未来有一天,普通人可以对内置在家用机器人中的数字家庭助手发出“请给我热一热午餐”等指令,然后看着机器人从头到尾完成任务。在这份报告中,微软研究人员详细介绍他们如何使用某些提示来让ChatGPT控制一架小型无人机。通过在ChatGPT聊天对话框中编写指令,研究人员能够训练无人机在房间里找到“健康饮料”、“有糖和红色标志的东西”(在这种情况下,是一罐可乐),以及一面供无人机自拍的镜子。ChatGPT非常适合执行这些命令的原因,与OpenAI技术让一些软件工程师对未来感到紧张如出一辙,那就是人工智能聊天机器人可以快速将自然语言转换为代码。OpenAI在去年11月底决定向公众发布ChatGPT,结果火爆全网,也引起了业内人士的担忧。专家们预计,包括写作、教育和软件工程在内的许多行业都将被这项技术所颠覆。虽然微软研究人员承认他们的工作“只代表了一小部分可能性”,但他们警告说,在没有“仔细分析”的情况下,不应该贸然部署ChatGPT的这种应用。...PC版:https://www.cnbeta.com.tw/articles/soft/1346149.htm手机版:https://m.cnbeta.com.tw/view/1346149.htm

封面图片

Alter3:一个能够执行 ChatGPT 指令的仿人机器人

:一个能够执行ChatGPT指令的仿人机器人东京大学的研究人员成功将仿人机器人Alter3与GPT-4连接。他们利用指令让这个机器人完成了一系列的人类行为,例如弹吉他、自拍、扮演鬼魂角色,甚至在电影院偷吃别人的爆米花。这一过程可以看作是一场现代化的“哑剧游戏”:大语言模型(LargeLanguageModel)将书面指令转换为可执行的代码,从而让机器人能够模仿出多种人类的动作。

封面图片

开源聊天机器人在质量评估上能达到 ChatGPT 的九成

加州伯克利、斯坦福、卡内基梅隆和加州圣迭戈的研究团队宣布了开源聊天机器人Vicuna-13B,它是基于Meta的大语言模型LLaMA,使用了用户通过ShareGPT分享的7万对话样本进行微调。研究人员让OpenAI的GPT-4作为裁判去对比Vicuna-13B以及ChatGPT和GoogleBard,结果显示它在质量评估中能达到ChatGPT的九成左右。Vicuna-13B的训练成本只花了300美元。Vicuna-13B的代码使用ApacheLicense2.0许可证,研究人员计划释出其模型权重。https://chat.lmsys.org/https://vicuna.lmsys.org/投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

首台由ChatGPT设计、与人类合作开发的摘番茄机器人现身

首台由ChatGPT设计、与人类合作开发的摘番茄机器人现身在一项新的案例研究中,来自荷兰代尔夫特理工大学和瑞士联邦理工学院(EPFL)的研究人员寻求ChatGPT-3的帮助来设计和建造一个机器人,考虑到ChatGPT是一个语言模型,这可能看起来很奇怪。"尽管ChatGPT是一个语言模型,它的代码生成是基于文本的,但它为物理设计提供了重要的见解和直觉,并显示出作为激发人类创造力的传声筒的巨大潜力,"关于这一经验的公开案例研究的合著者乔西-休斯说。首先,研究人员问人工智能模型:"人类的未来挑战是什么?"ChatGPT提出了三个问题:粮食供应、人口老化和气候变化。研究人员选择食品供应作为机器人设计的最有希望的方向,因为这不在他们的专业领域之内。利用LLM对来自学术出版物、技术手册、书籍和媒体的全球数据的访问,研究人员问人工智能,一个机器人收割机应该具备哪些功能。ChatGPT想出了一个电机驱动的抓手,用于将成熟的西红柿从藤上拉下来。决定了这一总体设计后,研究人员就可以继续进行具体的设计,包括使用什么建筑材料和创建控制它的计算机代码。目前,LLM不能生成整个计算机辅助设计(CAD)模型、评估代码或自动制造机器人,因此这一步需要研究人员扮演"技术员"的角色,在这些方面提供协助,优化LLM编写的代码,最终确定CAD并制造机器人。研究人员和LLM之间的讨论的图片概述,上面是人类提出的问题,下面是LLM提供的选项。绿色阴影代表人类的决策树,人类逐渐将问题集中到与他们的目标相匹配。"虽然计算在很大程度上被用来协助工程师进行技术实施,但人工智能系统第一次可以构思新的系统,从而实现高级认知任务的自动化,"该案例研究的主要作者弗朗西斯科-斯特拉说。"这可能涉及到人类角色向更多技术角色的转变"。根据ChatGPT-3提供的技术建议,研究人员建造了他们的机器人抓手,并在现实世界中进行了测试,用它来采摘西红柿,它成功地做到了。a.LLM产生的一些技术建议,包括形状指示、代码、部件和材料选择以及机构设计。b.在这些输入的指导下,建造了一个抓手,并在现实世界的任务中进行了测试,例如采摘西红柿,如右图所示。研究人员说,他们的案例研究展示了通过人类和LLM之间的合作来改变设计过程的潜力,但他们也意识到,这为不同程度的合作打开了大门。他们说,在一个极端,人工智能将充当"发明家",提供全部的机器人设计输入,而人类则盲目地应用它。另一种方法是利用人工智能的广泛知识来补充人类的专业知识。第三种方法是保留人类作为发明者,利用人工智能通过故障排除、调试和处理繁琐或耗时的过程来完善设计过程。研究人员提出了人类与人工智能合作可能产生的道德和常识性风险。他们指出偏见、剽窃和知识产权(IP)的问题是值得关注的领域,并质疑鉴于LLM生成的设计使用了现有的知识,它是否可以被视为'新颖'。休斯说:"在我们的研究中,ChatGPT确定西红柿是'最值得'追求的机器人收割机的作物。然而,这可能偏向于文献中涉及较多的作物,而不是那些真正有实际需求的作物。当决定是在工程师的知识范围之外做出的,这可能导致重大的道德、工程或事实错误"。尽管有这些担忧,研究人员认为,如果管理得当,人类与人工智能的合作有很大的潜力。研究人员说:"机器人界必须确定如何利用这些强大的工具,以道德、可持续和社会授权的方式加速机器人的进步。展望未来,我们坚信,LLMs将开启许多令人兴奋的可能性,如果管理得当,它们将成为一种善的力量。"该案例研究发表在《自然-机器智能》杂志上。...PC版:https://www.cnbeta.com.tw/articles/soft/1364135.htm手机版:https://m.cnbeta.com.tw/view/1364135.htm

封面图片

【谷歌宣布推出人工智能机器人Bard 与ChatGPT展开竞争】

【谷歌宣布推出人工智能机器人Bard与ChatGPT展开竞争】2023年03月21日11点54分老不正经报道,据英国金融时报报道,谷歌宣布推出AI聊天机器人Bard,以试图与OpenAI的ChatGPT展开竞争。该公司正寻求在生成人工智能技术商业化的竞赛中收复失地。谷歌表示,Bard将只生成英语答案,而不是计算机代码或其他语言的答案,并将以先到先得的方式向在美国和英国的等候名单上注册的用户提供访问权限。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人