微软使用ChatGPT训练机器人为人类日常生活服务

微软使用ChatGPT训练机器人为人类日常生活服务微软研究人员表示：“我们这项研究的目标是看看ChatGPT是否能超越生成文本的范畴，对现实世界状况进行推理，从而帮助机器人完成任务。”微软研究人员想象，未来有一天，普通人可以对内置在家用机器人中的数字家庭助手发出“请给我热一热午餐”等指令，然后看着机器人从头到尾完成任务。在这份报告中，微软研究人员详细介绍他们如何使用某些提示来让ChatGPT控制一架小型无人机。通过在ChatGPT聊天对话框中编写指令，研究人员能够训练无人机在房间里找到“健康饮料”、“有糖和红色标志的东西”(在这种情况下，是一罐可乐)，以及一面供无人机自拍的镜子。ChatGPT非常适合执行这些命令的原因，与OpenAI技术让一些软件工程师对未来感到紧张如出一辙，那就是人工智能聊天机器人可以快速将自然语言转换为代码。OpenAI在去年11月底决定向公众发布ChatGPT，结果火爆全网，也引起了业内人士的担忧。专家们预计，包括写作、教育和软件工程在内的许多行业都将被这项技术所颠覆。虽然微软研究人员承认他们的工作“只代表了一小部分可能性”，但他们警告说，在没有“仔细分析”的情况下，不应该贸然部署ChatGPT的这种应用。...PC版：https://www.cnbeta.com.tw/articles/soft/1346149.htm手机版：https://m.cnbeta.com.tw/view/1346149.htm

在Telegram中查看

相关推荐

“终结者”走入现实？微软的野心：用ChatGPT控制机器人

“终结者”走入现实？微软的野心：用ChatGPT控制机器人不过，现在的ChatGPT只会动动嘴皮子，并没有任何接触现实物理世界的能力，顶多也就是当个科幻小说看看。但要是ChatGPT真的可以操控机器人呢？最近，微软发表了一篇论文，公布了他们正在把ChatGPT应用于机器人上的研究成果。不过微软的目标并非是“毁灭世界”，而是加快机器人的开发速度。实际上在现代的生活和生产流程中，处处都离不开机器人，从工厂里制造产品的机械臂，到家庭里用的吸尘器，都可以算作是机器人（robot）。每次想开发一个新产品，或者让现有的机器执行一个新功能，都需要一个高级工程师编写代码，同时尽可能编写测试覆盖所有场景。微软在论文中提出了一套新的设计原则，通过ChatGPT这样的大型语言模型来给机器人提供指令。ChatGPT：机器人控制器ChatGPT之所以爆火，其根本原因就在于：AI终于在一定程度上能“听懂人话”了，而非只是按照语法胡乱生成内容；而且它的功能也很强大，问答、写论文、写诗、写代码，只要prompt写得够好，ChatGPT的表现也会更惊人。要是把这种能力迁移到机器人身上，假设几十年以后，各家各户都有机器人，只要说一声“给我热一下午餐”，它就能自己找到微波炉，再把菜端回来，人机交互直接迈入新时代。虽然“自然语言”很简洁，但现有的机器人开发还是依赖于“编程语言”。ChatGPT是一个基于大量文本和人类反馈训练得到的语言模型，能够针对各种各样的提示和问题产生连贯且语法正确的回应。这项研究的目的是观察ChatGPT是否能够在文本之外的领域进行思考，并推理出物理世界来帮助机器人完成任务。研究人员预期ChatGPT能够帮助用户更容易地与机器人交互，而不需要学习复杂的编程语言或机器人系统的细节，其中的关键难题就是教ChatGPT如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态，并以此来解决指定的任务。实验证明，ChatGPT可以独立完成很多工作，但是它仍然需要一些辅助，论文中描述了一系列的设计原则，可以用来指导语言模型解决机器人任务，包括但不限于特殊的提示结构、高级API和基于文本的人类反馈等，一场机器人系统的开发革命即将到来。全新的代码设计流程给大型语言模型写prompt是一门高度经验主义的科学，通过反复试验，研究人员建立了一套方法论和设计原则，专门用于为机器人任务撰写提示：1.定义了一组高级机器人API或函数库。这个库可根据特定的机器人类型进行设计，并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。对高级API使用的描述性名称非常重要，可以帮助ChatGPT推断函数的功能。2.为ChatGPT编写一个文本提示，用来描述任务目标，同时显式说明高级库中的哪些函数是可用的。提示中还可以包含有关任务约束的信息,或者ChatGPT应该如何组织它的答案，包括使用特定的编程语言，使用辅助解析组件等;3.用户在循环中评估ChatGPT的代码输出，可以直接执行代码以检查正确性，也可以使用模拟器。如果有需要的话，用户可以使用自然语言向ChatGPT提供有关答案质量和安全性的反馈。当用户对解决方案感到满意时，就可以将最终的代码部署到机器人上。ChatGPT+机器人能做什么？下面是几个例子，更完整的ChatGPT能力列表参见代码仓库。代码链接：https://github.com/microsoft/PromptCraft-RoboticsZero-shot任务规划当ChatGPT遇上无人机，研究人员首先让ChatGPT能够控制一台真正的无人机的全部功能，然后按照下面视频中进行的对话，实验结果证明，一个完全不懂技术的用户，只需要通过对话就能实现控制无人机，“自然语言”是一个非常直观、高效的用户接口。03:04当用户的指令含糊不清时，ChatGPT会要求用户进一步说明问题，并为无人机编写复杂的代码结构，例如飞行之字（zig-zag）图案，以便可视化地检查货架；甚至还能给用户来一张自拍。研究人员还在MicrosoftAirSim模拟器中对工业检查场景中使用ChatGPT进行模拟，结果显示该模型能够有效地解析用户的高级意图和几何线索，以准确地控制无人机。03:43复杂的任务需要用户参与反馈当把ChatGPT用于机械臂的操作场景时，研究人员使用“会话反馈”（conversationalfeedback）来教模型如何将最初提供的API组合成更复杂的高级函数，即ChatGPT自己内部编码的函数。使用以课程为基础（curriculum-based）的策略，ChatGPT能够将这些学到的技能有逻辑地链接在一起，以执行诸如堆叠块之类的操作。此外，还有一个例子能展现出ChatGPT的强大能力，研究人员要求模型用木块构建微软标志，即需要将文本域和物理域连接起来。ChatGPT不仅能够从内部知识库中回忆出微软的logo，还能够用SVG的代码“绘制”出这个标志，然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。02:16还有一个例子，研究人员让ChatGPT编写一个算法，让无人机在不撞上障碍物的情况下，在空中达到目标。只需要告诉模型，它操控的这架无人机有一个前向距离传感器，ChatGPT立即能够为算法编码了大部分关键构件，这个任务需要与人类进行一些对话，ChatGPT仅通过自然语言反馈就能进行局部代码修改。01:12在行动之前感知世界在算法决定做某事（action）之前能够感知世界（perception）是打造一个机器人系统的基础。为了测试ChatGPT对指定概念的理解，研究人员设计了一个框架，要求ChatGPT不断探索环境，让模型访问诸如目标检测和目标距离API之类的函数，直到找到用户指定的对象，整个过程称为感知-行动循环（Perception-actionloops）。在实验环节，研究人员进行了额外的实验来评估ChatGPT是否能够根据传感器的实时反馈来决定机器人应该去哪里，而不是让ChatGPT生成一个代码循环来做出这些决定。实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述，并且模型能够找出如何控制机器人，并驱使机器人到达一个特定的对象。01:42开源PromptCraft：收集有价值的prompt“良好的prompting工程”对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。但prompting完全是一门经验主义的科学、缺乏全面的总结，并且相关资源也很少，没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt为了弥补这一劣势，研究人员开源了一个平台PromptCraft，任何用户都可以在其上分享不同机器人类别的提示策略示例。这次研究项目的所有提示和对话都已经放在了仓库中，感兴趣的读者可以继续参与贡献！除了快速设计之外，研究人员还计划未来开发多个机器人模拟器和接口，以允许用户测试ChatGPT生成的算法性能，目前已经发布了一个集成ChatGPT的AirSim环境。把机器人带出实验室，走向世界微软发布这些技术的目的是将机器人技术推广到更广泛的受众，研究人员认为，基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。也就是说，ChatGPT的输出不应该在没有仔细分析的情况下直接部署在机器人上。通过在模拟环境中获得实验结果，能够在未来现实部署之前对算法进行评估，并采取必要的安全预防措施。...PC版：https://www.cnbeta.com.tw/articles/soft/1346449.htm手机版：https://m.cnbeta.com.tw/view/1346449.htm

首台由ChatGPT设计、与人类合作开发的摘番茄机器人现身

首台由ChatGPT设计、与人类合作开发的摘番茄机器人现身在一项新的案例研究中，来自荷兰代尔夫特理工大学和瑞士联邦理工学院（EPFL）的研究人员寻求ChatGPT-3的帮助来设计和建造一个机器人，考虑到ChatGPT是一个语言模型，这可能看起来很奇怪。"尽管ChatGPT是一个语言模型，它的代码生成是基于文本的，但它为物理设计提供了重要的见解和直觉，并显示出作为激发人类创造力的传声筒的巨大潜力，"关于这一经验的公开案例研究的合著者乔西-休斯说。首先，研究人员问人工智能模型："人类的未来挑战是什么？"ChatGPT提出了三个问题：粮食供应、人口老化和气候变化。研究人员选择食品供应作为机器人设计的最有希望的方向，因为这不在他们的专业领域之内。利用LLM对来自学术出版物、技术手册、书籍和媒体的全球数据的访问，研究人员问人工智能，一个机器人收割机应该具备哪些功能。ChatGPT想出了一个电机驱动的抓手，用于将成熟的西红柿从藤上拉下来。决定了这一总体设计后，研究人员就可以继续进行具体的设计，包括使用什么建筑材料和创建控制它的计算机代码。目前，LLM不能生成整个计算机辅助设计（CAD）模型、评估代码或自动制造机器人，因此这一步需要研究人员扮演"技术员"的角色，在这些方面提供协助，优化LLM编写的代码，最终确定CAD并制造机器人。研究人员和LLM之间的讨论的图片概述，上面是人类提出的问题，下面是LLM提供的选项。绿色阴影代表人类的决策树，人类逐渐将问题集中到与他们的目标相匹配。"虽然计算在很大程度上被用来协助工程师进行技术实施，但人工智能系统第一次可以构思新的系统，从而实现高级认知任务的自动化，"该案例研究的主要作者弗朗西斯科-斯特拉说。"这可能涉及到人类角色向更多技术角色的转变"。根据ChatGPT-3提供的技术建议，研究人员建造了他们的机器人抓手，并在现实世界中进行了测试，用它来采摘西红柿，它成功地做到了。a.LLM产生的一些技术建议，包括形状指示、代码、部件和材料选择以及机构设计。b.在这些输入的指导下，建造了一个抓手，并在现实世界的任务中进行了测试，例如采摘西红柿，如右图所示。研究人员说，他们的案例研究展示了通过人类和LLM之间的合作来改变设计过程的潜力，但他们也意识到，这为不同程度的合作打开了大门。他们说，在一个极端，人工智能将充当"发明家"，提供全部的机器人设计输入，而人类则盲目地应用它。另一种方法是利用人工智能的广泛知识来补充人类的专业知识。第三种方法是保留人类作为发明者，利用人工智能通过故障排除、调试和处理繁琐或耗时的过程来完善设计过程。研究人员提出了人类与人工智能合作可能产生的道德和常识性风险。他们指出偏见、剽窃和知识产权（IP）的问题是值得关注的领域，并质疑鉴于LLM生成的设计使用了现有的知识，它是否可以被视为'新颖'。休斯说："在我们的研究中，ChatGPT确定西红柿是'最值得'追求的机器人收割机的作物。然而，这可能偏向于文献中涉及较多的作物，而不是那些真正有实际需求的作物。当决定是在工程师的知识范围之外做出的，这可能导致重大的道德、工程或事实错误"。尽管有这些担忧，研究人员认为，如果管理得当，人类与人工智能的合作有很大的潜力。研究人员说："机器人界必须确定如何利用这些强大的工具，以道德、可持续和社会授权的方式加速机器人的进步。展望未来，我们坚信，LLMs将开启许多令人兴奋的可能性，如果管理得当，它们将成为一种善的力量。"该案例研究发表在《自然-机器智能》杂志上。...PC版：https://www.cnbeta.com.tw/articles/soft/1364135.htm手机版：https://m.cnbeta.com.tw/view/1364135.htm

Alter3：一个能够执行 ChatGPT 指令的仿人机器人

：一个能够执行ChatGPT指令的仿人机器人东京大学的研究人员成功将仿人机器人Alter3与GPT-4连接。他们利用指令让这个机器人完成了一系列的人类行为，例如弹吉他、自拍、扮演鬼魂角色，甚至在电影院偷吃别人的爆米花。这一过程可以看作是一场现代化的“哑剧游戏”：大语言模型(LargeLanguageModel)将书面指令转换为可执行的代码，从而让机器人能够模仿出多种人类的动作。

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明

谷歌DeepMind正在使用Gemini来训练机器人使其变得更聪明谷歌正在使用GeminiAI训练其机器人，以便它们能够更好地导航和完成任务，DeepMind机器人团队在一篇新的研究论文中解释了如何使用Gemini1.5Pro的长上下文窗口，让用户可以使用自然语言指令更轻松地与其RT-2机器人进行交互。其工作原理是拍摄指定区域的视频，研究人员使用Gemini1.5Pro让机器人“观看”视频以了解环境，然后机器人可以根据情况执行命令。DeepMind表示其Gemini驱动的机器人在超过50个任务中的成功率高达90%。研究人员还发现“初步证据”表明，Gemini使其机器人能够计划如何执行导航以外的指令，例如，当办公桌上有很多可乐罐的用户询问机器人“是否有他们最喜欢的饮料”时，Gemini就会知道“机器人应该导航到冰箱，检查是否有可乐，然后返回给用户报告结果。”DeepMind表示计划进一步调查这些结果。——，

移动机器人学和机器智能的里程碑 AI操控无人机能力超越人类冠军

移动机器人学和机器智能的里程碑AI操控无人机能力超越人类冠军无人机竞速。图片来源：《自然》在线版深度强化学习系统已在各类博弈中战胜过人类，包括国际象棋、雅达利游戏、《星际争霸》和GT赛车。不过，这些大部分都是模拟和棋盘游戏环境，而不是物理世界的竞赛。在第一人称视角的无人机竞速中，职业选手需驾驶高速飞行器穿过三维赛道。每位飞行员通过机载摄像机的视频直播从无人机的视角观察周围环境。自动驾驶无人机要达到职业飞行员的水准很难，因为机器人需要在其物理限制下飞行，同时只能根据机载传感器估算其速度和方位。瑞士苏黎世大学研究团队设计了一种自动驾驶系统，能以人类世界冠军的水准进行物理世界的竞赛。该系统将模拟的深度强化学习与物理世界采集的数据相结合。在由一位职业无人机竞速飞行员设计的现实世界赛道上进行的一系列比赛中，Swift与三名人类冠军对战，包括两项国际联赛的世界冠军。人类飞行员有一周时间在真实赛道上训练，之后每位飞行员在多场一对一比赛中对战Swift。该系统在多个回合中击败了每一位人类冠军（25场比赛中共获胜15场），而且打破了比赛的最短用时纪录，比人类飞行员的最快速度还领先半秒。在同时发表的新闻与观点文章中，科学家评论称，该系统必须能应对外部干扰，如风、光照条件变化、定义不太清晰的各种障碍、其他竞速无人机等等——所有这些都对现有的AI技术构成很大挑战。...PC版：https://www.cnbeta.com.tw/articles/soft/1380715.htm手机版：https://m.cnbeta.com.tw/view/1380715.htm

开源聊天机器人在质量评估上能达到 ChatGPT 的九成

加州伯克利、斯坦福、卡内基梅隆和加州圣迭戈的研究团队宣布了开源聊天机器人Vicuna-13B，它是基于Meta的大语言模型LLaMA，使用了用户通过ShareGPT分享的7万对话样本进行微调。研究人员让OpenAI的GPT-4作为裁判去对比Vicuna-13B以及ChatGPT和GoogleBard，结果显示它在质量评估中能达到ChatGPT的九成左右。Vicuna-13B的训练成本只花了300美元。Vicuna-13B的代码使用ApacheLicense2.0许可证，研究人员计划释出其模型权重。https://chat.lmsys.org/https://vicuna.lmsys.org/投稿：@ZaiHuabot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人