斯坦福团队新作:喊话就能指导机器人 任务成功率暴增

斯坦福团队新作:喊话就能指导机器人 任务成功率暴增 比如在这个场景中,机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话,“用海绵把袋子撑得再开一些”,之后就一下子成功了。而且,这些纠正的指令还会被系统记录下来,成为训练数据,用于进一步提高机器人的后续表现。有网友看了说,既然已经能朝着机器人喊话了,那汽车是不是也快点安排上,还在线点名特斯拉和其自动驾驶软件总监Ashok Elluswamy。成果发布后,前Google机器人高级研究员Eric Jang,前DeepMind研究员、斯坦福客座教授Karol Hausman等一众大佬也纷纷表示了肯定和赞许。那么,用喊话调整的机器人,都能实现什么样的动作呢?喊话就能发号施令利用YAY技术调教后,机器人以更高的成功率挑战了物品装袋、水果混合和洗盘子这三项复杂任务。这三种任务的特点是都需要两只手分别完成不同的动作,其中一只手要稳定地拿住容器并根据需要调整姿态,另一只手则需要准确定位目标位置并完成指令,而且过程中还涉及海绵这种软性物体,拿捏的力度也是一门学问。以打包装袋这个任务为例,机器人在全自主执行的过程中会遇到各种各样的困难,但通过喊话就能见招拆招。只见机器人在将装袋的过程中不小心把海绵掉落了下来,然后便无法再次捡起。这时,开发者直接朝它喊话,口令就是简单的“往我这边挪一挪,然后往左”。当按照指令做出动作后,第一次还是没成功,但机器人记住了“往左”这个指令,再次左移之后便成功把海绵捡起来了。但紧接着就出现了新的困难袋子的口被卡住了。这时只要告诉它再把袋子打开一点点,机器人就“心领神会”,调整出了一系列后续动作,并最终成功完成任务。而且不只是能纠正错误,任务的细节也能通过喊话实时调整,比如在装糖的任务中,开发者觉得机器人拿的糖有点多了,只要喊出“少一点”,机器人就会将一部分糖果倒回盒子。进一步地,人类发出的这些指令还会被系统记录并用作微调,以提高机器人的后续表现。比如在刷盘子这项任务中,经过微调之后的机器人清洁力度更强,范围也变大了。统计数据表明,机器人在经历这种微调之后,平均任务成功率提高了20%,如果继续加入喊话指令还能继续提高。而且这样的指令-微调过程可以迭代进行,每迭代一次机器人的表现都能有所提升。那么,YAY具体是如何实现的呢?人类教诲“铭记在心”架构上,整个YAY系统主要由高级策略和低级策略这两个部分组成。其中高级策略负责生成指导低级策略的语言指令,低级策略则用于执行具体动作。具体来说,高级策略将摄像头捕捉到的视觉信息编码,与相关知识结合,然后由Transformer生成包含当前动作描述、未来动作预测等内容的指令。而低级策略接收到语言指令后,会解析这些指令中的关键词,并映射到机器人关节的目标位置或运动轨迹。同时,YAY系统引入了实时的语言纠正机制,人类的口头命令优先级最高经识别后,直接传递给低级策略用于执行。且在这个过程中命令会被系统记录并用于微调高级策略通过学习人类提供的纠正性反馈,逐渐减少对即时口头纠正的依赖,从而提高长期任务的自主成功率。在完成基础训练并已经在真实环境中部署后,系统仍然可以继续收集指令信息,不断地从反馈中学习并进行自我改进。作者简介本项目的第一作者是斯坦福大学的学生研究员Lucy X. Shi,2019年毕业于人大附中后进入南加州大学就读计算机科学专业。其间,Lucy曾到英伟达实习研究多模态大模型,并曾与知名AI学者Jim Fan博士合作。她的论文曾连续两年被机器人顶会CoRL收录,还入选过NeurIPS,本人还被DeepMind邀请发表过演讲。Lucy的导师Chelsea Finn是斯坦福计算机科学和电气工程系助理教授,Google学术论文引用数超4.7万,此前还在Google Brain工作过一段时间。包括本项目在内,在ALOHA团队发表的一系列论文当中,Finn总是作为通讯作者出现。此外,ALOHA团队的Tony Z. Zhao、Sergey Levine等研究人员,也是本文的共同作者。 ... PC版: 手机版:

相关推荐

封面图片

斯坦福大学发布开源远程操作机器人系统 ALOHA

斯坦福大学发布开源远程操作机器人系统 ALOHA 是一个低成本的开源硬件系统,可用于双手远程操作机器人执行精细任务 (例如给线缆轧带或剥鸡蛋壳)、动态任务 (例如颠乒乓球) 以及接触式丰富的任务 (例如给自行车上链条)。 作者 Tony Zhao 基于 Transformer 开发了一种动作学习算法,ALOHA 可以直接从实际演示中执行端到端的模仿学习,然后自主完成相同或类似的任务,也可根据实时反馈调整动作以适应不同的环境和情况。 以往执行这些任务通常需要高端机器人、精确的传感器或仔细的校准,这可能既昂贵又难以设置,而 ALOHA 开源了有关设置的所有内容,并准备了详细教程,任何人都可以3D打印组件然后运行现成的机器人。

封面图片

斯坦福爆火家务机器人升级二代:双手稳到能偷钱包 成本降至19万

斯坦福爆火家务机器人升级二代:双手稳到能偷钱包 成本降至19万 开可乐平稳倒可乐都是小case:连不带吸管的便利店牛奶都能轻而易举成功打开:那就更不用多说将玩具放进三个不同碗里这样的简单操作了:而且还能玩抛物游戏:网友们看了直呼excitng!据作者透露,这一套设备的成本是2万7千美元。具体的论文和线上教程,目前都已发布。有哪些新升级?ALOHA2首先改进了机器人的夹持器,让它们能够抓得更牢、更稳。利用低摩擦的轨道设计,能向夹持器顶端输出原本2倍的力。同时还改变了握带的布局,提升抓取小物体的能力。并且取代了ALOHA原有的剪刀导轨式机械手设计,采用低摩擦轨道设计,降低机械复杂性,让遥控操作更流畅。其次,改善了前臂的重力补偿。用一个恒力牵引器和一个弹簧滑轮系统,机械臂可以在更多空间活动、悬停,比原来使用的橡皮筋更牢固。最后,还在保留必需摄像头安装点的情况下,简化了框架周围的工作单元,这让人机合作有更大的空间。同时这一次还发布了一个ALOHA sim模型,可以在没有硬件设备的情况下,在Mujoco中用ALOHA完成复杂任务。ALOHA是啥?ALOHA最初是由斯坦福等推出的一个双机械手远程操作的低成本开源硬件系统。今年1月,斯坦福团队升级版机器人控制方案Mobile ALOHA。让它能做各种家务,当时在网络上爆火。ALOHA支持真人遥控操作和全自动两种工作模式。前不久发布的Mobile ALOHA在堆满家具的复杂环境中,机器人系统仅通过少量的人类示教,就学会了各种复杂移动操纵任务,如叫电梯、开柜门、擦桌子等。学习过程中,移动底座的速度与双手的14自由度等操纵信息,一同作为示范算法的输入,和ALOHA静态数据一起对系统进行联合训练。而且该系统不仅兼容多种示教学习算法,而且对于用户而言,掌握教学的方法也十分容易。而如果采用真人操作,可以做出更为复杂的菜色。值得一提的是,当时Mobile ALOHA爆火后,作者随后放出的翻车集锦也引发巨大关注。“显然机器人还没有做好接管这个世界的准备doge”不过如今随着ALOHA 2的最新升级,大家对于机器人做家务,又能有更多期待了~ ... PC版: 手机版:

封面图片

昨天一篇斯坦福大学的家务机器人比较火

昨天一篇斯坦福大学的家务机器人比较火 dji宣布退出k12教育 智元机器人与北大开始合作 机器人圈(好吧我非常讨要说圈,为什么要说呢,因为我想说一下我讨要说圈) 这是机器人相关的比较有意思的三件事。 斯坦福大学的家务机器人工作很有启发意义,但是复现难度不会太大。距离真的可以用还有较长一段时间。 有启发意义的事情是,这玩意儿不是编程编出来的,而是手把手教的。他的后方有两个采集人手以及手臂动作的机械臂。在人完成了一系列复杂动作50次后,可以有90%的成功率让机器人去【学会】这个动作,这也就是论文的启发性。 首先这个东西是没有移动机构的,也就是他不能在家里自由的移动。为什么要特意强调这一点,因为对于机械臂形的机器人来说,没有移动机构意味着,他的底盘相对来说是比较重的。 而且有了移动机构之后,能否仍然如此顺滑地做家务而不是抖来抖去这就不太清楚了。 机器人的机械结构没有特别大的进步,这里就是纯废话了,因为机械臂真的发展的特别完善,现在在走小型化,轻量化的路线,让机械臂变成一个消费级的产品。值得注意的是很多up主已经开始使用机械臂辅助拍摄,效果还是不错的。 这里cue一个国产机械臂厂商,方舟无限,怎么说呢,如果方舟无限现有的机械臂去实现斯坦福大学家务机器人做出来的事情是没有什么压力的,但是该公司的算法能不能支持就存疑了。(基本不能,但是他家机械臂真的很好用) dji推出了k12教育,机器人在k12,尤其是国内的k12缺乏一些力量的最大原因还是对升学没有什么帮助。不像少儿编程,还能参加信息竞赛(不过信息竞赛也由于一些时间上的问题对升学的帮助越来越低)机器人在国内缺乏一个被教育部认可的竞赛。 不过在国际上还是有的那就是赫赫有名的FRC机器人比赛。这个比赛拿到比较好的名次对于申请藤校还是有很大帮助的,包括机器人教育本身也很费钱,(虽然说费钱但是和补习班比起来我感觉后者就是细水长流但是钱堆起来还是比机器人费的多一点不知道)。由于这玩意儿打出来除了申请国外学校以外没什么别的作用,而申请国外学校,尤其是美本还是比较贵的,所以市场一直不大,(但是客单价很高)。考虑到德国一些学校也认,或许也是一条出路(划掉)。 dji对于本科机器人教育的投资并没有说是不是要砍掉,这里又有一段故事我们下次再说。 这里就不得不提优必选了,一个人形教育机器人,随着每个高校都有了一堆吃灰的优必选机器人展示在学生创新中心的犄角旮旯里,难说还有什么别的市场。 虽然我对人形机器人会首先在中国出现深信不疑的主要原因就是智元机器人的存在,但是这家公司和北大这么快就合作了也是让我感觉到很神奇。高山仰止吧。 出于我朴素的爱国主义和浅陋的见识,我相信且认为,中国未来出现一个庞大的机器人产业。但是我也更加希望,这样的庞大产业是与庞大的市场相互匹配的。 我工作还指望这个呢! 祝大家新年快乐哈。

封面图片

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明 谷歌正在使用 Gemini AI 训练其机器人,以便它们能够更好地导航和完成任务,DeepMind 机器人团队在一篇新的研究论文中解释了如何使用 Gemini 1.5 Pro 的长上下文窗口,让用户可以使用自然语言指令更轻松地与其 RT-2 机器人进行交互。 其工作原理是拍摄指定区域的视频,研究人员使用 Gemini 1.5 Pro 让机器人“观看”视频以了解环境,然后机器人可以根据情况执行命令。 DeepMind 表示其 Gemini 驱动的机器人在超过 50 个任务中的成功率高达 90%。研究人员还发现“初步证据”表明,Gemini 使其机器人能够计划如何执行导航以外的指令,例如,当办公桌上有很多可乐罐的用户询问机器人“是否有他们最喜欢的饮料”时,Gemini 就会知道“机器人应该导航到冰箱,检查是否有可乐,然后返回给用户报告结果。”DeepMind 表示计划进一步调查这些结果。 ,

封面图片

:一个能够执行 ChatGPT 指令的仿人机器人

:一个能够执行 ChatGPT 指令的仿人机器人 东京大学的研究人员成功将仿人机器人 Alter3 与 GPT-4 连接。他们利用指令让这个机器人完成了一系列的人类行为,例如弹吉他、自拍、扮演鬼魂角色,甚至在电影院偷吃别人的爆米花。 这一过程可以看作是一场现代化的“哑剧游戏”:大语言模型 (Large Language Model) 将书面指令转换为可执行的代码,从而让机器人能够模仿出多种人类的动作。

封面图片

我以前以为,实现小学生作文里写的,让机器人买菜做饭,是需要有类似人的自主意识才能实现,而让机器有自主意识,可能需要用到通用

我以前以为,实现小学生作文里写的,让机器人买菜做饭,是需要机器人有类似人的自主意识才能实现,而让机器有自主意识,可能需要用到通用量子计算机。现在再看,随着技术发展,也许机器人不需要有自主意识也能执行复杂任务。 一般来说,发指令让机器人把桌上A点的一瓶水,拿起来并放到B点,是相对容易的,只需给机器人编程,设定好坐标、姿态和抓取指令即可。 但是如果你对机器人说,帮我去超市买两斤黄瓜回来,这个难度就相当大了,尽管这个任务只需要花5块钱就会有一个人类外卖员帮你实现。 让机器人去超市买两斤黄瓜,涉及到大量感知、决策和执行过程。 打个比方,怎么让机器人开门。 机器人开门实现起来就比较复杂,研究机器人开门的文章很多。 机器人得认识门把手,得知道门把手的精确位置,得学习从哪个姿态抓成功率更高,得有合适的控制方法避免把门把手或者把自己的手指拧断了。 得用到机器视觉,得研究机器人运动学、动力学,得上深度学习,还得研究各种信号滤波和控制优化方法。 我对机器人只了解一点皮毛,这是我能想到的,实际研究的人可能会遇到更多问题。 想象一下,你所在的团队花了几年时间,成功让机器人学会了拧开各种一字形门把手,并发了很多文章。但是机器人下楼后发现,楼下有个肯德基餐厅同款的门把手。见此情景,你领导心中窃喜,又可以搞到一笔经费,并发好几篇文章。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人