解读斯坦福Aloha机器人：视频为何是“假的”？能做家务的还有多远？-Vol41 - 脑放电波

新节目上线，主要这些内容，欢迎大家听哈-刷屏的斯坦福机器人研究（Mobile-Aloha）都有什么亮点？为什么刷屏的新闻竟然是“假的”？-理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿；-为什么用上论文里面的机器人这么难？为什么说机器人行业“不像朝阳行业”-我们距离家里有一台机器人，还有多远？哪些技术是关键？

在Telegram中查看

相关推荐

昨天一篇斯坦福大学的家务机器人比较火

昨天一篇斯坦福大学的家务机器人比较火dji宣布退出k12教育智元机器人与北大开始合作机器人圈（好吧我非常讨要说圈，为什么要说呢，因为我想说一下我讨要说圈）这是机器人相关的比较有意思的三件事。斯坦福大学的家务机器人工作很有启发意义，但是复现难度不会太大。距离真的可以用还有较长一段时间。有启发意义的事情是，这玩意儿不是编程编出来的，而是手把手教的。他的后方有两个采集人手以及手臂动作的机械臂。在人完成了一系列复杂动作50次后，可以有90%的成功率让机器人去【学会】这个动作，这也就是论文的启发性。首先这个东西是没有移动机构的，也就是他不能在家里自由的移动。为什么要特意强调这一点，因为对于机械臂形的机器人来说，没有移动机构意味着，他的底盘相对来说是比较重的。而且有了移动机构之后，能否仍然如此顺滑地做家务而不是抖来抖去这就不太清楚了。机器人的机械结构没有特别大的进步，这里就是纯废话了，因为机械臂真的发展的特别完善，现在在走小型化，轻量化的路线，让机械臂变成一个消费级的产品。值得注意的是很多up主已经开始使用机械臂辅助拍摄，效果还是不错的。这里cue一个国产机械臂厂商，方舟无限，怎么说呢，如果方舟无限现有的机械臂去实现斯坦福大学家务机器人做出来的事情是没有什么压力的，但是该公司的算法能不能支持就存疑了。（基本不能，但是他家机械臂真的很好用）dji推出了k12教育，机器人在k12，尤其是国内的k12缺乏一些力量的最大原因还是对升学没有什么帮助。不像少儿编程，还能参加信息竞赛（不过信息竞赛也由于一些时间上的问题对升学的帮助越来越低）机器人在国内缺乏一个被教育部认可的竞赛。不过在国际上还是有的那就是赫赫有名的FRC机器人比赛。这个比赛拿到比较好的名次对于申请藤校还是有很大帮助的，包括机器人教育本身也很费钱，（虽然说费钱但是和补习班比起来我感觉后者就是细水长流但是钱堆起来还是比机器人费的多一点不知道）。由于这玩意儿打出来除了申请国外学校以外没什么别的作用，而申请国外学校，尤其是美本还是比较贵的，所以市场一直不大，（但是客单价很高）。考虑到德国一些学校也认，或许也是一条出路（划掉）。dji对于本科机器人教育的投资并没有说是不是要砍掉，这里又有一段故事我们下次再说。这里就不得不提优必选了，一个人形教育机器人，随着每个高校都有了一堆吃灰的优必选机器人展示在学生创新中心的犄角旮旯里，难说还有什么别的市场。虽然我对人形机器人会首先在中国出现深信不疑的主要原因就是智元机器人的存在，但是这家公司和北大这么快就合作了也是让我感觉到很神奇。高山仰止吧。出于我朴素的爱国主义和浅陋的见识，我相信且认为，中国未来出现一个庞大的机器人产业。但是我也更加希望，这样的庞大产业是与庞大的市场相互匹配的。我工作还指望这个呢！祝大家新年快乐哈。

斯坦福大学发布开源远程操作机器人系统 ALOHA

斯坦福大学发布开源远程操作机器人系统ALOHA是一个低成本的开源硬件系统，可用于双手远程操作机器人执行精细任务(例如给线缆轧带或剥鸡蛋壳)、动态任务(例如颠乒乓球)以及接触式丰富的任务(例如给自行车上链条)。作者TonyZhao基于Transformer开发了一种动作学习算法，ALOHA可以直接从实际演示中执行端到端的模仿学习，然后自主完成相同或类似的任务，也可根据实时反馈调整动作以适应不同的环境和情况。以往执行这些任务通常需要高端机器人、精确的传感器或仔细的校准，这可能既昂贵又难以设置，而ALOHA开源了有关设置的所有内容，并准备了详细教程，任何人都可以3D打印组件然后运行现成的机器人。——投稿：@ZaiHuabot频道：@TestFlightCN

斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万

斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万开可乐平稳倒可乐都是小case：连不带吸管的便利店牛奶都能轻而易举成功打开：那就更不用多说将玩具放进三个不同碗里这样的简单操作了：而且还能玩抛物游戏：网友们看了直呼excitng！据作者透露，这一套设备的成本是2万7千美元。具体的论文和线上教程，目前都已发布。有哪些新升级？ALOHA2首先改进了机器人的夹持器，让它们能够抓得更牢、更稳。利用低摩擦的轨道设计，能向夹持器顶端输出原本2倍的力。同时还改变了握带的布局，提升抓取小物体的能力。并且取代了ALOHA原有的剪刀导轨式机械手设计，采用低摩擦轨道设计，降低机械复杂性，让遥控操作更流畅。其次，改善了前臂的重力补偿。用一个恒力牵引器和一个弹簧滑轮系统，机械臂可以在更多空间活动、悬停，比原来使用的橡皮筋更牢固。最后，还在保留必需摄像头安装点的情况下，简化了框架周围的工作单元，这让人机合作有更大的空间。同时这一次还发布了一个ALOHAsim模型，可以在没有硬件设备的情况下，在Mujoco中用ALOHA完成复杂任务。ALOHA是啥？ALOHA最初是由斯坦福等推出的一个双机械手远程操作的低成本开源硬件系统。今年1月，斯坦福团队升级版机器人控制方案MobileALOHA。让它能做各种家务，当时在网络上爆火。ALOHA支持真人遥控操作和全自动两种工作模式。前不久发布的MobileALOHA在堆满家具的复杂环境中，机器人系统仅通过少量的人类示教，就学会了各种复杂移动操纵任务，如叫电梯、开柜门、擦桌子等。学习过程中，移动底座的速度与双手的14自由度等操纵信息，一同作为示范算法的输入，和ALOHA静态数据一起对系统进行联合训练。而且该系统不仅兼容多种示教学习算法，而且对于用户而言，掌握教学的方法也十分容易。而如果采用真人操作，可以做出更为复杂的菜色。值得一提的是，当时MobileALOHA爆火后，作者随后放出的翻车集锦也引发巨大关注。“显然机器人还没有做好接管这个世界的准备doge”不过如今随着ALOHA2的最新升级，大家对于机器人做家务，又能有更多期待了~...PC版：https://www.cnbeta.com.tw/articles/soft/1417071.htm手机版：https://m.cnbeta.com.tw/view/1417071.htm

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了折叠衣物（3倍速播放）：对柔性物体的操作长久以来都是困扰整个manipulation领域的难题，需要高度灵活的操作和精细的动作协调。切火腿（2倍速播放）：复杂的摩擦和阻力，难以用传统方法快速建模，需要精确的力度控制与物体定位。切黄瓜，2倍速播放：在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍（2倍速播放）：自修正的closeloop控制能力，在不同压力和表面条件下的精细力度控制，实时检测并调整擦拭动作，确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉（3倍速播放）：使用工具的过程中，处理复杂的摩擦一直以来都是极大难点。冲果汁，举起水壶往杯中倒入适量的水（3倍速播放）：流体引入大量的随机性，准确操作非常困难。这家去年底成立的公司，汇聚了来自世界著名人工智能/机器人学实验室以及国内外顶尖高校的优秀人才，拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”，专注于机器人领域的基础模型（foundationmodel）研发。目前，团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型（“中枢神经”），目标是能够控制低成本硬件（如数千元的机械臂），完成包括烹饪、打扫卫生在内的日常家务，并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作，以及完成其他达到人类水平的通用操作任务。基于具身智能大模型，开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想，但在现实生活中，能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划，以及有效的人机交互能力。此外，技术的集成、机器人的安全性、续航能力、成本等，也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式，很难根据环境变化自主调整策略，从长远看也几乎不可能规模化。大语言模型（LLM）等人工智能技术的突破，为机器人领域带来了新的曙光。Google的RT-2系统将视觉-语言-动作模型与机器人技术相结合，使机器人能够处理复杂场景，并响应人类的指令。DeepMind的AutoRT系统则使用视觉-语言模型（VLM），帮助机器人适应未知环境，并利用LLM来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势，有望帮助机器人逼近甚至超越人类的水平。XSquare认为，目前机器人领域正处于技术的代际更迭之际。斯坦福ALOHA等项目表明，通用机器人发展的瓶颈在于智能而非硬件。事实上，机器人领域长期以来面临的两大困难，一是如何在复杂环境中精确感知并做出精细的操作（lowlevel智能），二是缺乏类似人类的推理、规划、交互等高级认知能力（highlevel智能）。从感知到行动，机器人的智能可以被视为一个从highlevel逐步到lowlevel的决策过程。大模型的出现为解决上述难题带来了新思路。运用LLM或VLM来进行高阶推理与规划、与人交互，已经成为业界公认的发展方向。但是，直接用单一的大模型来驱动端到端的机器人manipulation，目前尝试的团队还不多。XSquare的独特之处便在于此，团队基于过往在模型、算法、系统、硬件等方面的科研成果积累，集合所有技能训练“机器人LargeManipulationModel”，从手部操作切入，基于具身大模型来构建可以精细操作的通用机器人。团队希望结合high-level的推理规划模型与low-level的操作控制模型，打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为XSquare，寓意要同时在highlevel推理和lowlevel控制这两个维度做大模型，并把两者有机结合。目前我们在两个方向都已有不错的基础，有信心在一年内从追赶到超越目前的世界领先水平。”XSquare指出：“与腿的移动能力相比，手的操作能力包含了更丰富和复杂的动作，要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿，XSquare更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂，可以大幅降低成本，2-3年内整体硬件成本有望降至1万美元以下，我们认为放弃5%的人形功能来换取数量级的成本优势是值得的。”软硬件一体，驱动数据飞轮“我们希望模型拥有怎样的能力，就需要提供给模型什么样的数据。是数据，而非算法或结构决定了模型的能力，这是当今时代的核心方法论。”机器人的特殊性在于，它是一个具有前所未有复合性的综合系统。相比纯软件的LLM和多模态大模型，具身智能大模型虽然在规模上暂时无法与之相比，但在工程上难度要高出许多，它必须在海量的真实和模拟场景中不断实践、学习。因此，能否找准技术方向，在降低开发成本和提高迭代效率的同时，打造高质量的数据采集能力，控制试错成本，最终实现规模化，是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求，因为是否具有足够的软硬结合能力，在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展，是XSquare的核心理念。无论是机器人本体的形态设计，还是数据采集系统，都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上，Xsquare也有自己独特的理解和创新。“除了需要有专门的数据，还需要针对性的结构设计和训练方法，不能单纯套用其他领域的大模型经验，因为它必须直接面对复杂的真实世界，要在真实世界中不断实践、迭代。”同时，由于大模型与传统deeplearningforrobotics具有相当的gap，是否真正具备足够的大模型训练落地经验，决定了能否快速构建通用具身智能大模型。这也正是XSquare的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work，以Transformer为底座算法模型不能很好地支持因果关系的推理，而因果性在机器人所在的物理世界中大量出现，并在机器人操作中起关键作用。为了处理因果性，目前有很多worldmodel的尝试。但当前的世界模型要么完全集中在图像/视频重建上（如Sora），要么完全集中在高层语义理解上，缺乏适合机器人的形态。”XSquare笃定机器人大模型这个方向，一方面是基于团队成员亲历深度学习从被质疑到一统江湖，以及LLM从默默无闻到大放异彩的技术浪潮，另一方面，也是看好中国作为全球硬件中心，拥有得天独厚的产业链优势，也有利于快速缩短机器人的研发周期。团队在不到3个月的时间里，就完成了技术架构的搭建和早期模型的训练，展现出惊人的成长速度和卓越的工程能力。“在现阶段，我们也积极寻求与上下游合作伙伴的协作，实现智能的迭代升级。未来，随着具身智能大模型技术的日益成熟，我们会更聚焦于特定应用场景，推出自己的机器人产品，例如能完成做饭、打扫等复杂家务的机器人保姆，甚至进行老年人康养护理等服务。”XSquare表示。...PC版：https://www.cnbeta.com.tw/articles/soft/1425999.htm手机版：https://m.cnbeta.com.tw/view/1425999.htm

斯坦福团队新作：喊话就能指导机器人任务成功率暴增

斯坦福团队新作：喊话就能指导机器人任务成功率暴增比如在这个场景中，机器人没能完成系统设定的“把海绵放入袋子”的任务。这时研究者直接朝它喊话，“用海绵把袋子撑得再开一些”，之后就一下子成功了。而且，这些纠正的指令还会被系统记录下来，成为训练数据，用于进一步提高机器人的后续表现。有网友看了说，既然已经能朝着机器人喊话了，那汽车是不是也快点安排上，还在线点名特斯拉和其自动驾驶软件总监AshokElluswamy。成果发布后，前Google机器人高级研究员EricJang，前DeepMind研究员、斯坦福客座教授KarolHausman等一众大佬也纷纷表示了肯定和赞许。那么，用喊话调整的机器人，都能实现什么样的动作呢？喊话就能发号施令利用YAY技术调教后，机器人以更高的成功率挑战了物品装袋、水果混合和洗盘子这三项复杂任务。这三种任务的特点是都需要两只手分别完成不同的动作，其中一只手要稳定地拿住容器并根据需要调整姿态，另一只手则需要准确定位目标位置并完成指令，而且过程中还涉及海绵这种软性物体，拿捏的力度也是一门学问。以打包装袋这个任务为例，机器人在全自主执行的过程中会遇到各种各样的困难，但通过喊话就能见招拆招。只见机器人在将装袋的过程中不小心把海绵掉落了下来，然后便无法再次捡起。这时，开发者直接朝它喊话，口令就是简单的“往我这边挪一挪，然后往左”。当按照指令做出动作后，第一次还是没成功，但机器人记住了“往左”这个指令，再次左移之后便成功把海绵捡起来了。但紧接着就出现了新的困难——袋子的口被卡住了。这时只要告诉它再把袋子打开一点点，机器人就“心领神会”，调整出了一系列后续动作，并最终成功完成任务。而且不只是能纠正错误，任务的细节也能通过喊话实时调整，比如在装糖的任务中，开发者觉得机器人拿的糖有点多了，只要喊出“少一点”，机器人就会将一部分糖果倒回盒子。进一步地，人类发出的这些指令还会被系统记录并用作微调，以提高机器人的后续表现。比如在刷盘子这项任务中，经过微调之后的机器人清洁力度更强，范围也变大了。统计数据表明，机器人在经历这种微调之后，平均任务成功率提高了20%，如果继续加入喊话指令还能继续提高。而且这样的指令-微调过程可以迭代进行，每迭代一次机器人的表现都能有所提升。那么，YAY具体是如何实现的呢？人类教诲“铭记在心”架构上，整个YAY系统主要由高级策略和低级策略这两个部分组成。其中高级策略负责生成指导低级策略的语言指令，低级策略则用于执行具体动作。具体来说，高级策略将摄像头捕捉到的视觉信息编码，与相关知识结合，然后由Transformer生成包含当前动作描述、未来动作预测等内容的指令。而低级策略接收到语言指令后，会解析这些指令中的关键词，并映射到机器人关节的目标位置或运动轨迹。同时，YAY系统引入了实时的语言纠正机制，人类的口头命令优先级最高——经识别后，直接传递给低级策略用于执行。且在这个过程中命令会被系统记录并用于微调高级策略——通过学习人类提供的纠正性反馈，逐渐减少对即时口头纠正的依赖，从而提高长期任务的自主成功率。在完成基础训练并已经在真实环境中部署后，系统仍然可以继续收集指令信息，不断地从反馈中学习并进行自我改进。作者简介本项目的第一作者是斯坦福大学的学生研究员LucyX.Shi，2019年毕业于人大附中后进入南加州大学就读计算机科学专业。其间，Lucy曾到英伟达实习研究多模态大模型，并曾与知名AI学者JimFan博士合作。她的论文曾连续两年被机器人顶会CoRL收录，还入选过NeurIPS，本人还被DeepMind邀请发表过演讲。Lucy的导师ChelseaFinn是斯坦福计算机科学和电气工程系助理教授，Google学术论文引用数超4.7万，此前还在GoogleBrain工作过一段时间。包括本项目在内，在ALOHA团队发表的一系列论文当中，Finn总是作为通讯作者出现。此外，ALOHA团队的TonyZ.Zhao、SergeyLevine等研究人员，也是本文的共同作者。...PC版：https://www.cnbeta.com.tw/articles/soft/1426490.htm手机版：https://m.cnbeta.com.tw/view/1426490.htm

全球近乎一半的工业机器人在中国

全球近乎一半的工业机器人在中国对美国工业来说，认为它在制造业中拥有技术领先优势可能是一种自我安慰，即使大部分的制造业都在海外进行。当然，美国拥有最先进的制造业--自动化、精确度和工业机器人。我们想到的是灯火通明的工厂，自动化的装配线，装配线上的机器人在火花中进行点焊，以及无人驾驶的材料处理机。如果在这样的环境中看到一个人，他们无疑会是美国人。我们认为计算机化的装配和制造是一种与生俱来的权利，我们在人工智能和创新方面的优势，是一种力量的倍增器。为什么，我们的一个机器人可以做一百个外国劳工的工作，对吗？阅读国际机器人联合会(IFR)最近的会让人感到震惊，报告显示，中国现在拥有世界上所有机器人装置的近一半，而且它的领先优势正在迅速增加。IFR的存在是为了"促进整个机器人领域的研究、开发、使用和国际合作"，在过去8年中，中国一直是实施工业机器人的世界领导者。我们没有注意到。在3年内，中国的工业机器人安装数量几乎翻了一番。据《华尔街日报》报道，到2020年，中国的机器人安装量为24.3万台，几乎占到了世界上所有工业机器人的一半。德国是工业4.0的发源地，也是1987年IFR成立的国家，它很可能期待着报道自己在工业机器人方面的领先地位，结果却被中国抢了风头。大多数新的工业机器人被用于电子制造（电路板、消费类电子产品等）和汽车组装，特别是在激增的电动汽车（EVs）生产中。人们必然想知道，为什么中国这个拥有如此多廉价人工的国家会选择昂贵的机器人，并对技术支持有特殊要求。中国可能拥有庞大的人口（14亿人），但其劳动力实际上正在减少，《国际金融报》说，这是因为越来越多的人口老龄化和服务工作的竞争日益激烈。中国政府决心不让劳动力的减少导致制造业的下降，而且只有中央集权的威权政府才能做到这一点，它已将机器人化作为国家优先事项，并动员其力量。中国从10年前每万名员工拥有10个机器人，到2020年每万名员工拥有246个机器人，排名世界第九。为了保持机器人的先进性和可操作性，中国人力资源和社会保障部在6月推出了18个新的职业名称，包括"机器人工程技术人员"。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人