叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了折叠衣物（3倍速播放）：对柔性物体的操作长久以来都是困扰整个manipulation领域的难题，需要高度灵活的操作和精细的动作协调。切火腿（2倍速播放）：复杂的摩擦和阻力，难以用传统方法快速建模，需要精确的力度控制与物体定位。切黄瓜，2倍速播放：在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍（2倍速播放）：自修正的closeloop控制能力，在不同压力和表面条件下的精细力度控制，实时检测并调整擦拭动作，确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉（3倍速播放）：使用工具的过程中，处理复杂的摩擦一直以来都是极大难点。冲果汁，举起水壶往杯中倒入适量的水（3倍速播放）：流体引入大量的随机性，准确操作非常困难。这家去年底成立的公司，汇聚了来自世界著名人工智能/机器人学实验室以及国内外顶尖高校的优秀人才，拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”，专注于机器人领域的基础模型（foundationmodel）研发。目前，团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型（“中枢神经”），目标是能够控制低成本硬件（如数千元的机械臂），完成包括烹饪、打扫卫生在内的日常家务，并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作，以及完成其他达到人类水平的通用操作任务。基于具身智能大模型，开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想，但在现实生活中，能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划，以及有效的人机交互能力。此外，技术的集成、机器人的安全性、续航能力、成本等，也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式，很难根据环境变化自主调整策略，从长远看也几乎不可能规模化。大语言模型（LLM）等人工智能技术的突破，为机器人领域带来了新的曙光。Google的RT-2系统将视觉-语言-动作模型与机器人技术相结合，使机器人能够处理复杂场景，并响应人类的指令。DeepMind的AutoRT系统则使用视觉-语言模型（VLM），帮助机器人适应未知环境，并利用LLM来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势，有望帮助机器人逼近甚至超越人类的水平。XSquare认为，目前机器人领域正处于技术的代际更迭之际。斯坦福ALOHA等项目表明，通用机器人发展的瓶颈在于智能而非硬件。事实上，机器人领域长期以来面临的两大困难，一是如何在复杂环境中精确感知并做出精细的操作（lowlevel智能），二是缺乏类似人类的推理、规划、交互等高级认知能力（highlevel智能）。从感知到行动，机器人的智能可以被视为一个从highlevel逐步到lowlevel的决策过程。大模型的出现为解决上述难题带来了新思路。运用LLM或VLM来进行高阶推理与规划、与人交互，已经成为业界公认的发展方向。但是，直接用单一的大模型来驱动端到端的机器人manipulation，目前尝试的团队还不多。XSquare的独特之处便在于此，团队基于过往在模型、算法、系统、硬件等方面的科研成果积累，集合所有技能训练“机器人LargeManipulationModel”，从手部操作切入，基于具身大模型来构建可以精细操作的通用机器人。团队希望结合high-level的推理规划模型与low-level的操作控制模型，打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为XSquare，寓意要同时在highlevel推理和lowlevel控制这两个维度做大模型，并把两者有机结合。目前我们在两个方向都已有不错的基础，有信心在一年内从追赶到超越目前的世界领先水平。”XSquare指出：“与腿的移动能力相比，手的操作能力包含了更丰富和复杂的动作，要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿，XSquare更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂，可以大幅降低成本，2-3年内整体硬件成本有望降至1万美元以下，我们认为放弃5%的人形功能来换取数量级的成本优势是值得的。”软硬件一体，驱动数据飞轮“我们希望模型拥有怎样的能力，就需要提供给模型什么样的数据。是数据，而非算法或结构决定了模型的能力，这是当今时代的核心方法论。”机器人的特殊性在于，它是一个具有前所未有复合性的综合系统。相比纯软件的LLM和多模态大模型，具身智能大模型虽然在规模上暂时无法与之相比，但在工程上难度要高出许多，它必须在海量的真实和模拟场景中不断实践、学习。因此，能否找准技术方向，在降低开发成本和提高迭代效率的同时，打造高质量的数据采集能力，控制试错成本，最终实现规模化，是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求，因为是否具有足够的软硬结合能力，在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展，是XSquare的核心理念。无论是机器人本体的形态设计，还是数据采集系统，都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上，Xsquare也有自己独特的理解和创新。“除了需要有专门的数据，还需要针对性的结构设计和训练方法，不能单纯套用其他领域的大模型经验，因为它必须直接面对复杂的真实世界，要在真实世界中不断实践、迭代。”同时，由于大模型与传统deeplearningforrobotics具有相当的gap，是否真正具备足够的大模型训练落地经验，决定了能否快速构建通用具身智能大模型。这也正是XSquare的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work，以Transformer为底座算法模型不能很好地支持因果关系的推理，而因果性在机器人所在的物理世界中大量出现，并在机器人操作中起关键作用。为了处理因果性，目前有很多worldmodel的尝试。但当前的世界模型要么完全集中在图像/视频重建上（如Sora），要么完全集中在高层语义理解上，缺乏适合机器人的形态。”XSquare笃定机器人大模型这个方向，一方面是基于团队成员亲历深度学习从被质疑到一统江湖，以及LLM从默默无闻到大放异彩的技术浪潮，另一方面，也是看好中国作为全球硬件中心，拥有得天独厚的产业链优势，也有利于快速缩短机器人的研发周期。团队在不到3个月的时间里，就完成了技术架构的搭建和早期模型的训练，展现出惊人的成长速度和卓越的工程能力。“在现阶段，我们也积极寻求与上下游合作伙伴的协作，实现智能的迭代升级。未来，随着具身智能大模型技术的日益成熟，我们会更聚焦于特定应用场景，推出自己的机器人产品，例如能完成做饭、打扫等复杂家务的机器人保姆，甚至进行老年人康养护理等服务。”XSquare表示。...PC版：https://www.cnbeta.com.tw/articles/soft/1425999.htm手机版：https://m.cnbeta.com.tw/view/1425999.htm

在Telegram中查看

相关推荐

华为云发布盘古具身智能大模型：“夸父”人形机器人亮相

华为云发布盘古具身智能大模型：“夸父”人形机器人亮相据介绍，盘古大模型能够让机器人完成10步以上的复杂任务规划，并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频，让机器人更快地学习各种复杂场景。大模型的多模态能力以及思维能力的快速提升，使机器人能够模拟人类常识进行逻辑推理，并在现实环境中高效精准地执行任务，从而有效解决了复杂环境感知与物理空间认知的难题。通过集成多场景泛化和多任务处理能力，不论是生活场景还是工业场景，都能游刃有余的应对。大会现场展示中，“夸父”可以通过识别物品、问答互动、击掌、递水等互动演示，直观展示了双方基于盘古大模型的合作成果。通过模仿学习策略显著提升了人形机器人的双臂操作能力，实现了软硬件层面的协同优化，不仅增强了机器人综合性能，还克服了小样本数据训练的局限性，推动了泛化操作能力的边界。张平安在大会上表示，除了人形机器人，盘古具身智能大模型还可以赋能多种形态的工业机器人和服务机器人，让它们帮助人类去从事危险和繁重的工作。具身智能大模型可以让机器人作用更加广泛，未来真正实现让AI机器人帮助我们去洗衣、做饭、扫地，让我们有更多的时间去看书，写诗，作画。...PC版：https://www.cnbeta.com.tw/articles/soft/1435629.htm手机版：https://m.cnbeta.com.tw/view/1435629.htm

AI大模型加持人形机器人、四足机器狗显身手

AI大模型加持人形机器人、四足机器狗显身手根据语音指令，机器狗可以完成握手、蹲下、转弯、跳舞等动作。现场工作人员表示，小米的四足机器狗将接入“小爱”的大模型版本，来提升智能化交互能力。优必选在现场对“人形机器人多模态交互”进行了演示。工作人员介绍，该系统接入了AI大模型，能够响应客户的对话，并按照指令进行操作。在演示中，该机器人可以听从指令完成对人招手、握手、转身、拉开柜门取物等操作。擎朗智能在大会发布了多功能配送机器人T10、清洁服务机器人产品C30等新品。擎朗智能创始人兼CEO李通提到，2023年第三季度0距离高效配送机器人T9Pro和远距离安全配送机器人T3将开启商业应用；新生代配送机器人T10和超能清洁机器人C30的上市时间，会在2023年第四季度。清洁服务机器人产品C30据了解，近年来擎朗智能在海外迅速扩张。在64个国家参与并完成机器人出海认证，成为美国UL首个服务机器人标委会成员。配送机器人T10WRC期间，宇树正式发布首款通用人形机器人H1，拥有360°全景深度感知。宇树工作人员称，H1预计在今年第四季度左右开始发货，零售价位在几十万人民币以内。此外，宇树的另一款新品消费/教育级四足机器人Go2，能进行AI智能交互，并完成丰富的特技舞蹈动作。傲鲨智能此次携带了MAPS-E上肢、BES-HV腰部、BES-Ultra全身等多款外骨骼集中亮相。记者获悉，电影《流浪地球2》中赋予人类超力量的多款外骨骼机器人，都来自傲鲨智能。在展台现场，除了外骨骼机器人的静态展示，记者也看到了《流浪地球2》战损版外骨骼机器人。《流浪地球2》战损版外骨骼机器人傲鲨智能的市场负责人张华先生介绍，目前的产品已经覆盖了上肢、腰部、下肢等多个区域，并已在汽车制造、航空地服、电力、高校、矿山等领域进行了应用。其客户包括一汽大众、广汽丰田、上海电气、神东煤炭、国家电网、南方电网、北京大兴国际机场、宁德时代等。在追觅展台，通用人形机器人现场制作咖啡并成功“拉花”，引起了一阵惊叹。追觅科技人形机器人负责人喻超表示：“基于深度学习训练的视觉模型，追觅通用人形机器人能够在不同环境下都能准确识别不同材质尺寸的杯具及工具从而完成拉花。这是通用人形机器人走出实验室，探索实际应用的重要一步。”追觅科技人形机器人拉花表演目前，追觅通用人形机器人已经可以脱离实验室环境，在室内室外场景中展示招手互动、行走等动作行为；在经历了重力拍打、拳击之后，仍能稳定行走。追觅通用人形机器人实现了高度仿生，身高178cm，体重56kg，全身有44个自由度，单腿还有完整的6自由度，可以完成单腿站立。除了给咖啡拉花，记者在现场看到了达闼机器人完成拿起篮球、走到篮筐对应位置，完成投篮的一系列动作。云迹科技的机器人在酒店行业得到较广泛的应用。公司相关负责人向《科创板日报》记者介绍，用户可以线上商城下单，由机器人自动接单，并自主取货和派送常用客需品。帕西尼感知科技展示了基于多维度触觉传感技术的人形机器人。公司CTO张恒第表示，多维度触觉传感技术可以让机器人感知各种形状和材质的物体，为机器人自主学习提供基础，使其可以在更复杂和柔性的场景里实现抓取和操纵。当前，国内外科技巨头纷纷探索机器人与大模型的结合。GoogleDeepMind近日发布机器人大模型RT-2，提高泛化与涌现能力。NVIDIA创始人黄仁勋在ITF2023年半导体大会上分析了多模态人工智能技术NVIDIAVIMA，VIMA能根据视觉、文本提示执行任务。微软则探索将ChatGPT扩展到机器人领域，从而运用语言直观控制机械臂、无人机等。安信证券机械行业首席分析师郭倩倩认为，AI大模型的接入对于机器人它的催化体现在四个方面，分别是语言能力、视觉能力、运动控制能力，还有虚拟仿真能力。“AI使得人形机器人离我们不再遥远，机器人越来越智能，实现更多的人机互动，所以这两年虽然还处于0-1的阶段，还没有完全量产，但是未来的发展趋势是比较确定的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1377613.htm手机版：https://m.cnbeta.com.tw/view/1377613.htm

中金公司：AI 大模型有望带动人形机器人智能化快速迭代

中金公司：AI大模型有望带动人形机器人智能化快速迭代中金公司研报称，人形机器人剑指终极“通用”机器人，硬件方案尚未归拢，软件能力亟待提高。中金公司认为，机器人产业为实现通用化，具备类人形态和人工智能的人形机器人或是最终答案。相比传统机器人，人形机器人硬件向高可用性、低成本升级，当前方案百花齐放，尚未归拢，执行器部件选型、传感器应用类型及数量均存在分歧；软件向多元感知&智能决策升级，AI大模型有望带动人形机器人的智能化快速迭代。近期产业化进程持续加速，以行星滚柱丝杠为代表的核心硬件的设计优化及降本、以AI+机器人大模型迭代进展是关键变量。

解读斯坦福Aloha机器人：视频为何是“假的”？能做家务的还有多远？-Vol41 - 脑放电波

新节目上线，主要这些内容，欢迎大家听哈-刷屏的斯坦福机器人研究（Mobile-Aloha）都有什么亮点？为什么刷屏的新闻竟然是“假的”？-理解一些技术原理：机器人怎么和大语言模型结合；具身智能具体是怎么回事儿；-为什么用上论文里面的机器人这么难？为什么说机器人行业“不像朝阳行业”-我们距离家里有一台机器人，还有多远？哪些技术是关键？

去年8月，我想要的机器人，说不定很快就要来了。

去年8月，我想要的机器人，说不定很快就要来了。tidybot是一个接入了大语言模型的辅助机器人，更智能且更能够完成一些个性化的任务，如把家中物品摆放整齐等。大概原理，我的理解，摄像头等传感器实时获取环境信息，在多维空间里与文字对齐绑定，生成文字信息传给LLM，再由LLM理解后输出格式化的控制文字，再把控制文字转成控制信号来控制机器人动作。因为LLM目前只支持文字输入，文字输出，所以想要使用LLM作为大脑，就得把机器人的输入和输出都转成文字。那就需要用到类似于ImageBind的思路，把文字、图像、传感器数据在多维空间对齐绑定。https://tidybot.cs.princeton.edu/

华为云联合乐聚首发通用人形机器人

华为云联合乐聚首发通用人形机器人近日，华为云联合乐聚首发通用人形机器人夸父人形机器人。目前已经实现人形机器人小样本下的泛化操作，在工业、家庭场景中展开测试。双方正基于华为云的算力和AI能力，赋能人形机器人大脑；基于乐聚本体设计和运动控制能力，对机器人小脑和肢体的研发工作展开持续攻关，致力于打造系列pipeline和可复制推广的人形机器人产品及具身智能综合解决方案，共同构建人形机器人标准数据集、系统和工具链。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人