斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万

斯坦福爆火家务机器人升级二代：双手稳到能偷钱包成本降至19万开可乐平稳倒可乐都是小case：连不带吸管的便利店牛奶都能轻而易举成功打开：那就更不用多说将玩具放进三个不同碗里这样的简单操作了：而且还能玩抛物游戏：网友们看了直呼excitng！据作者透露，这一套设备的成本是2万7千美元。具体的论文和线上教程，目前都已发布。有哪些新升级？ALOHA2首先改进了机器人的夹持器，让它们能够抓得更牢、更稳。利用低摩擦的轨道设计，能向夹持器顶端输出原本2倍的力。同时还改变了握带的布局，提升抓取小物体的能力。并且取代了ALOHA原有的剪刀导轨式机械手设计，采用低摩擦轨道设计，降低机械复杂性，让遥控操作更流畅。其次，改善了前臂的重力补偿。用一个恒力牵引器和一个弹簧滑轮系统，机械臂可以在更多空间活动、悬停，比原来使用的橡皮筋更牢固。最后，还在保留必需摄像头安装点的情况下，简化了框架周围的工作单元，这让人机合作有更大的空间。同时这一次还发布了一个ALOHAsim模型，可以在没有硬件设备的情况下，在Mujoco中用ALOHA完成复杂任务。ALOHA是啥？ALOHA最初是由斯坦福等推出的一个双机械手远程操作的低成本开源硬件系统。今年1月，斯坦福团队升级版机器人控制方案MobileALOHA。让它能做各种家务，当时在网络上爆火。ALOHA支持真人遥控操作和全自动两种工作模式。前不久发布的MobileALOHA在堆满家具的复杂环境中，机器人系统仅通过少量的人类示教，就学会了各种复杂移动操纵任务，如叫电梯、开柜门、擦桌子等。学习过程中，移动底座的速度与双手的14自由度等操纵信息，一同作为示范算法的输入，和ALOHA静态数据一起对系统进行联合训练。而且该系统不仅兼容多种示教学习算法，而且对于用户而言，掌握教学的方法也十分容易。而如果采用真人操作，可以做出更为复杂的菜色。值得一提的是，当时MobileALOHA爆火后，作者随后放出的翻车集锦也引发巨大关注。“显然机器人还没有做好接管这个世界的准备doge”不过如今随着ALOHA2的最新升级，大家对于机器人做家务，又能有更多期待了~...PC版：https://www.cnbeta.com.tw/articles/soft/1417071.htm手机版：https://m.cnbeta.com.tw/view/1417071.htm

在Telegram中查看

相关推荐

昨天一篇斯坦福大学的家务机器人比较火

昨天一篇斯坦福大学的家务机器人比较火dji宣布退出k12教育智元机器人与北大开始合作机器人圈（好吧我非常讨要说圈，为什么要说呢，因为我想说一下我讨要说圈）这是机器人相关的比较有意思的三件事。斯坦福大学的家务机器人工作很有启发意义，但是复现难度不会太大。距离真的可以用还有较长一段时间。有启发意义的事情是，这玩意儿不是编程编出来的，而是手把手教的。他的后方有两个采集人手以及手臂动作的机械臂。在人完成了一系列复杂动作50次后，可以有90%的成功率让机器人去【学会】这个动作，这也就是论文的启发性。首先这个东西是没有移动机构的，也就是他不能在家里自由的移动。为什么要特意强调这一点，因为对于机械臂形的机器人来说，没有移动机构意味着，他的底盘相对来说是比较重的。而且有了移动机构之后，能否仍然如此顺滑地做家务而不是抖来抖去这就不太清楚了。机器人的机械结构没有特别大的进步，这里就是纯废话了，因为机械臂真的发展的特别完善，现在在走小型化，轻量化的路线，让机械臂变成一个消费级的产品。值得注意的是很多up主已经开始使用机械臂辅助拍摄，效果还是不错的。这里cue一个国产机械臂厂商，方舟无限，怎么说呢，如果方舟无限现有的机械臂去实现斯坦福大学家务机器人做出来的事情是没有什么压力的，但是该公司的算法能不能支持就存疑了。（基本不能，但是他家机械臂真的很好用）dji推出了k12教育，机器人在k12，尤其是国内的k12缺乏一些力量的最大原因还是对升学没有什么帮助。不像少儿编程，还能参加信息竞赛（不过信息竞赛也由于一些时间上的问题对升学的帮助越来越低）机器人在国内缺乏一个被教育部认可的竞赛。不过在国际上还是有的那就是赫赫有名的FRC机器人比赛。这个比赛拿到比较好的名次对于申请藤校还是有很大帮助的，包括机器人教育本身也很费钱，（虽然说费钱但是和补习班比起来我感觉后者就是细水长流但是钱堆起来还是比机器人费的多一点不知道）。由于这玩意儿打出来除了申请国外学校以外没什么别的作用，而申请国外学校，尤其是美本还是比较贵的，所以市场一直不大，（但是客单价很高）。考虑到德国一些学校也认，或许也是一条出路（划掉）。dji对于本科机器人教育的投资并没有说是不是要砍掉，这里又有一段故事我们下次再说。这里就不得不提优必选了，一个人形教育机器人，随着每个高校都有了一堆吃灰的优必选机器人展示在学生创新中心的犄角旮旯里，难说还有什么别的市场。虽然我对人形机器人会首先在中国出现深信不疑的主要原因就是智元机器人的存在，但是这家公司和北大这么快就合作了也是让我感觉到很神奇。高山仰止吧。出于我朴素的爱国主义和浅陋的见识，我相信且认为，中国未来出现一个庞大的机器人产业。但是我也更加希望，这样的庞大产业是与庞大的市场相互匹配的。我工作还指望这个呢！祝大家新年快乐哈。

斯坦福大学发布开源远程操作机器人系统 ALOHA

斯坦福大学发布开源远程操作机器人系统ALOHA是一个低成本的开源硬件系统，可用于双手远程操作机器人执行精细任务(例如给线缆轧带或剥鸡蛋壳)、动态任务(例如颠乒乓球)以及接触式丰富的任务(例如给自行车上链条)。作者TonyZhao基于Transformer开发了一种动作学习算法，ALOHA可以直接从实际演示中执行端到端的模仿学习，然后自主完成相同或类似的任务，也可根据实时反馈调整动作以适应不同的环境和情况。以往执行这些任务通常需要高端机器人、精确的传感器或仔细的校准，这可能既昂贵又难以设置，而ALOHA开源了有关设置的所有内容，并准备了详细教程，任何人都可以3D打印组件然后运行现成的机器人。——投稿：@ZaiHuabot频道：@TestFlightCN

解读斯坦福Aloha机器人：视频为何是“假的”？能做家务的还有多远？-Vol41 - 脑放电波

新节目上线，主要这些内容，欢迎大家听哈-刷屏的斯坦福机器人研究（Mobile-Aloha）都有什么亮点？为什么刷屏的新闻竟然是“假的”？-理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿；-为什么用上论文里面的机器人这么难？为什么说机器人行业“不像朝阳行业”-我们距离家里有一台机器人，还有多远？哪些技术是关键？

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了折叠衣物（3倍速播放）：对柔性物体的操作长久以来都是困扰整个manipulation领域的难题，需要高度灵活的操作和精细的动作协调。切火腿（2倍速播放）：复杂的摩擦和阻力，难以用传统方法快速建模，需要精确的力度控制与物体定位。切黄瓜，2倍速播放：在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍（2倍速播放）：自修正的closeloop控制能力，在不同压力和表面条件下的精细力度控制，实时检测并调整擦拭动作，确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉（3倍速播放）：使用工具的过程中，处理复杂的摩擦一直以来都是极大难点。冲果汁，举起水壶往杯中倒入适量的水（3倍速播放）：流体引入大量的随机性，准确操作非常困难。这家去年底成立的公司，汇聚了来自世界著名人工智能/机器人学实验室以及国内外顶尖高校的优秀人才，拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”，专注于机器人领域的基础模型（foundationmodel）研发。目前，团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型（“中枢神经”），目标是能够控制低成本硬件（如数千元的机械臂），完成包括烹饪、打扫卫生在内的日常家务，并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作，以及完成其他达到人类水平的通用操作任务。基于具身智能大模型，开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想，但在现实生活中，能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划，以及有效的人机交互能力。此外，技术的集成、机器人的安全性、续航能力、成本等，也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式，很难根据环境变化自主调整策略，从长远看也几乎不可能规模化。大语言模型（LLM）等人工智能技术的突破，为机器人领域带来了新的曙光。Google的RT-2系统将视觉-语言-动作模型与机器人技术相结合，使机器人能够处理复杂场景，并响应人类的指令。DeepMind的AutoRT系统则使用视觉-语言模型（VLM），帮助机器人适应未知环境，并利用LLM来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势，有望帮助机器人逼近甚至超越人类的水平。XSquare认为，目前机器人领域正处于技术的代际更迭之际。斯坦福ALOHA等项目表明，通用机器人发展的瓶颈在于智能而非硬件。事实上，机器人领域长期以来面临的两大困难，一是如何在复杂环境中精确感知并做出精细的操作（lowlevel智能），二是缺乏类似人类的推理、规划、交互等高级认知能力（highlevel智能）。从感知到行动，机器人的智能可以被视为一个从highlevel逐步到lowlevel的决策过程。大模型的出现为解决上述难题带来了新思路。运用LLM或VLM来进行高阶推理与规划、与人交互，已经成为业界公认的发展方向。但是，直接用单一的大模型来驱动端到端的机器人manipulation，目前尝试的团队还不多。XSquare的独特之处便在于此，团队基于过往在模型、算法、系统、硬件等方面的科研成果积累，集合所有技能训练“机器人LargeManipulationModel”，从手部操作切入，基于具身大模型来构建可以精细操作的通用机器人。团队希望结合high-level的推理规划模型与low-level的操作控制模型，打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为XSquare，寓意要同时在highlevel推理和lowlevel控制这两个维度做大模型，并把两者有机结合。目前我们在两个方向都已有不错的基础，有信心在一年内从追赶到超越目前的世界领先水平。”XSquare指出：“与腿的移动能力相比，手的操作能力包含了更丰富和复杂的动作，要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿，XSquare更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂，可以大幅降低成本，2-3年内整体硬件成本有望降至1万美元以下，我们认为放弃5%的人形功能来换取数量级的成本优势是值得的。”软硬件一体，驱动数据飞轮“我们希望模型拥有怎样的能力，就需要提供给模型什么样的数据。是数据，而非算法或结构决定了模型的能力，这是当今时代的核心方法论。”机器人的特殊性在于，它是一个具有前所未有复合性的综合系统。相比纯软件的LLM和多模态大模型，具身智能大模型虽然在规模上暂时无法与之相比，但在工程上难度要高出许多，它必须在海量的真实和模拟场景中不断实践、学习。因此，能否找准技术方向，在降低开发成本和提高迭代效率的同时，打造高质量的数据采集能力，控制试错成本，最终实现规模化，是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求，因为是否具有足够的软硬结合能力，在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展，是XSquare的核心理念。无论是机器人本体的形态设计，还是数据采集系统，都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上，Xsquare也有自己独特的理解和创新。“除了需要有专门的数据，还需要针对性的结构设计和训练方法，不能单纯套用其他领域的大模型经验，因为它必须直接面对复杂的真实世界，要在真实世界中不断实践、迭代。”同时，由于大模型与传统deeplearningforrobotics具有相当的gap，是否真正具备足够的大模型训练落地经验，决定了能否快速构建通用具身智能大模型。这也正是XSquare的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work，以Transformer为底座算法模型不能很好地支持因果关系的推理，而因果性在机器人所在的物理世界中大量出现，并在机器人操作中起关键作用。为了处理因果性，目前有很多worldmodel的尝试。但当前的世界模型要么完全集中在图像/视频重建上（如Sora），要么完全集中在高层语义理解上，缺乏适合机器人的形态。”XSquare笃定机器人大模型这个方向，一方面是基于团队成员亲历深度学习从被质疑到一统江湖，以及LLM从默默无闻到大放异彩的技术浪潮，另一方面，也是看好中国作为全球硬件中心，拥有得天独厚的产业链优势，也有利于快速缩短机器人的研发周期。团队在不到3个月的时间里，就完成了技术架构的搭建和早期模型的训练，展现出惊人的成长速度和卓越的工程能力。“在现阶段，我们也积极寻求与上下游合作伙伴的协作，实现智能的迭代升级。未来，随着具身智能大模型技术的日益成熟，我们会更聚焦于特定应用场景，推出自己的机器人产品，例如能完成做饭、打扫等复杂家务的机器人保姆，甚至进行老年人康养护理等服务。”XSquare表示。...PC版：https://www.cnbeta.com.tw/articles/soft/1425999.htm手机版：https://m.cnbeta.com.tw/view/1425999.htm

ALOHA：低成本的开源的双向远程双手远程操作的硬件系统

ALOHA：低成本的开源的双向远程双手远程操作的硬件系统整个系统的成本不到20,000美元，但它比价格高出5-10倍的同类系统更强大。ALOHA能够执行精确的任务，如RAM插入、动态任务（如乒乓球颠球）以及接触丰富的任务（如穿鞋）。并且运行可靠的，在整整8个月的测试中没有电机故障。有关设置的所有内容都是开源的，有详细的教程。你可以通过现有机器人+3D打印组装，或者直接购买。

使用 GPT-3 模型，研究人员研发出能听懂英语指令并执行家务的机器人

使用GPT-3模型，研究人员研发出能听懂英语指令并执行家务的机器人普林斯顿大学、斯坦福大学和谷歌的一组研究人员，利用OpenAI的GPT-3Davinci模型，研发出了一款能听懂英语指令并执行家务的机器人，名为TidyBot。这款机器人可以根据用户的喜好，自动完成如分类洗衣服、捡起地上的垃圾、收拾玩具等任务。GPT-3Davinci模型是一种深度学习模型，属于GPT模型系列的一部分，可以理解和生成自然语言。该模型具有强大的总结能力，可以从大量的文本数据中学习复杂的对象属性和关系。研究人员利用这种能力，让机器人根据用户提供的几个示例对象放置位置，如“黄色衬衫放在抽屉里，深紫色衬衫放在衣柜里，白色袜子放在抽屉里”，然后让模型总结出用户的一般偏好规则，并应用到未来的交互中。投稿：@ZaiHuaBot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人