MIT博士让机器人自学“常识”：大模型加持可自主完成复杂家务劳动

MIT博士让机器人自学“常识”：大模型加持可自主完成复杂家务劳动相关研究论文以“Grounding Language Plans in Demonstrations Through Counterfactual Perturbations”为题，以会议论文的形式已发表在人工智能（AI）顶会 ICLR 2024 上。麻省理工学院（MIT）电气工程和计算机科学系博士 Yanwei Wang 为该研究论文的通讯作者。他表示，模仿学习是实现家用机器人的主流方法。但是，如果机器人盲目地模仿人类的运动轨迹，微小的错误就会不断累积，最终导致执行过程中的其他错误。“有了我们的方法，机器人就能自我纠正执行错误，提高整体任务的成功率。”让机器人掌握一点家务常识从擦拭溢出物到端上食物，机器人正在学习如何完成越来越复杂的家务劳动。实际上，许多家庭机器人都是通过模仿人类行为来学习的，它们被编程为复制人类指导它们完成的动作。然而，由于以往的机器人不具备常识，除非人类工程师通过编程让它们适应每一个可能的碰撞和轻推，否则它们并不一定知道如何处理这些情况，就会从头开始执行任务。或许，通过加入一些“常识性知识”，机器人可以在面对将它们推离训练轨道的情况时有所准备。据论文描述，Yanwei 等人通过一个简单的日常任务验证了他们提出的方法的有效性。该任务看似非常简单，即从一个碗中舀出弹珠，然后倒入另一个碗中。然而，在先前的方法中，为了让机器人完成这项任务，工程师往往会让机器人在一个流体轨迹上完成“舀”和“倒”的动作，并可能多次重复，让机器人模仿人类的一些示范动作。问题是，虽然人类可能会一次性演示一项任务，但这项任务取决于一系列子任务或轨迹。例如，机器人必须先将手伸进碗里，然后才能舀水，在移动到空碗之前，它必须先舀起弹珠。如果机器人在这些子任务中的任何一个过程中受到推挤或犯错，那么它唯一的办法就是停下来，从头开始。除非人类工程师明确标出每一个子任务，并为机器人编程或收集新的演示，从而让机器人从上述失败中恢复过来，在瞬间进行自我纠正。“这种程度的规划非常繁琐，” Yanwei 说。于是，在这项研究中，Yanwei 及其团队将机器人的运动数据与大型语言模型的“常识性知识”联系了起来。他们使机器人能够从逻辑上将许多给定的家务任务解析为子任务，并对子任务中的干扰进行调整。基于此，机器人就能继续前进，而不必返回并从头开始执行任务。而且重要的是，人类工程师也不必为每一个可能出现的故障编写详细的修复程序。据介绍，这些深度学习模型可以处理大量的文本库，并以此建立单词、句子和段落之间的联系。通过这些联系，大型语言模型可以根据它所学到的上一个词后面可能出现的词的类型生成新的句子。另外，除了句子和段落之外，大型语言模型还能根据提示生成特定任务所涉及的子任务的逻辑列表。例如，如果被要求列出将弹珠从一个碗中舀到另一个碗中的动作，模型就可能会产生一系列动词，如“够”、“舀”、“运”和“倒”。“大型语言模型可以使用自然语言告诉机器人如何完成任务的每一步。人类的连续演示就是这些步骤在物理空间中的体现，” Yanwei 说，“我们希望将两者联系起来，这样机器人就能自动知道自己处于任务的哪个阶段，并能自行重新规划和恢复。”Yanwei 表示，他们的算法现在可以将远程操作系统收集的数据转化为强大的机器人行为，尽管有外部干扰，机器人仍能完成复杂的任务。不足与展望尽管这一方法能够使得机器人在没有人类的帮助下进行自我纠正，从而完成复杂的家务劳动，但也存在一定的局限性。例如，虽然他们的方法不需要大量的人类演示，但它需要大量的试错和具有重置能力的环境，以便收集轨迹的任务成功标签。不过，研究团队表示，这种数据效率低下的问题可以通过主动学习来解决。此外，促使大型语言模型为学习分类器找到合适的状态表示也需要一些技巧。在未来的工作中，他们希望以端到端的方式结合模式分类器来学习状态表示。参考链接： ... PC版：手机版：

在Telegram中查看

相关推荐

首个自主完成人类任务机器人出现：五指灵活速度超人大模型加持虚拟空间训练

首个自主完成人类任务机器人出现：五指灵活速度超人大模型加持虚拟空间训练而特斯拉的擎天柱也屡屡传出好消息。没人怀疑，今年会是人形机器人爆发的一年。一家位于加拿大的机器人公司Sanctuary AI最近发布了一款全新的人形机器人Phoenix。官方号称它能以和人类一样的速率自主完成很多工作。世界上第一台能以人类速度自主完成任务的机器人Pheonix可以轻轻地抓取、移动并优雅地将每个对象放置在它的左右两侧。它可以自主地识别物体的颜色，将不同颜色的物体分开放置，整个过程非常丝滑，速度确实和人类差不多。时代周刊在将Phoenix评为了2023年的最佳发明，说明了主流的大众媒体对他们的认可。Phoenix由先进且独特的人工智能系统 Carbon 来控制，身高1米7，重155磅，拥有行业最领先的机器手，可与人类手的灵活性和精细操作相媲美。Carbon融合现代人工智能技术，将自然语言转化为现实世界的行动，具有可解释、可审查的推理能力，负责规划任务和运动计划，使得Phoenix能像人一样思考、行动，从而完成工作任务。它的工作负载可以达到25公斤，并且能以5公里每小时的速度进行移动。有网友做了一个统计所有机器人公司产品向人类“进化”的进度的表格，可以看出，头部几家公司已经能够完成自主的工作任务了。而要完成精细的工作任务，主要的难点就在于手部的灵活性和控制技术上。根据Sanctuary AI的演示，现在机器人已经可以自主完成很多简单的工作了。检查试管。将螺丝和螺母分类。将物品放入瓶子中。对物品进行扫码识别。还可以自主完成像人类一样的叠方块游戏。训练方式：从远程遥控数据中自主学习Sanctuary AI 使用远程操作对Pheonix 进行训练。工作人员通过VR系统，操纵机器人的四肢、手和手指完成各种任务。然后，将操作过程中的数据放在一个模拟的系统中，对机器人进行训练。而为了实现训练之后的动作，并且同时让机器人的动作能够达到迅速，有力，而且精准，他们选择了液压系统来完成对于机器人的操控。根据CTO Gildert的说法，只有液压系统能够让机器人“做一些非常灵巧的事情，比如穿针、扣纽扣之类的，你必须问自己，那只手还能举起一个 50 磅重的手提箱，并且以人类速度在键盘上打字。”在去年3月份，他们把机器人放到了温哥华的一个超市中，让它完成了110项与零售相关的任务。这包括挑选和包装商品、贴标签、贴标签、折叠和清理商店。公司核心创始人CEO：Geordie Rose他是一名科技行业的连续创业者。在2018年创立Sanctuary AI之前，他曾经创立了2家高科技公司：Kindred.ai：世界上第一家制造能在生产环境中使用的强化学习的机器人公司。D-Wave Systems Inc.:世界上第一家量子计算公司，向Google、美国宇航局、洛克希德·马丁公司、Gap Inc. 和几个美国政府机构出售量子计算机。他是不列颠哥伦比亚大学理论物理学博士。他还是一名搏击运动员，曾经是两届加拿大国家摔跤冠军，并且是 2010年NAGA大师白带巴西柔术世界锦标赛道道和无道类别的冠军。CTO：Suzanne Gildert她之前和CEO一起，在D-Wave和Kindred都担任重要职务。在加入Sanctuary之前，Suzanne是Kindred AI的联合创始人。她负责监督公司类人机器人的设计和工程，并负责开发认知架构，使机器人能够了解自己及其环境。在D-Wave期间，Suzanne开发了MAXCAT世界上第一个针对量子计算机的游戏，开发了世界上第一个在量子计算机上运行的监督分类器，并且是第一个使用量子计算机控制机器人运动的人。她毕业于伯明翰大学，研究方向是实验量子物理。他们两人同时也在网上定期发布与技术有关的播客，涉及内容从公司的治理到公司的具体技术细节，如果对人形机器人有兴趣的话千万不要错过他们的精彩内容。 ... PC版：手机版：

华为云发布盘古具身智能大模型：“夸父”人形机器人亮相

华为云发布盘古具身智能大模型：“夸父”人形机器人亮相据介绍，盘古大模型能够让机器人完成10步以上的复杂任务规划，并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频，让机器人更快地学习各种复杂场景。大模型的多模态能力以及思维能力的快速提升，使机器人能够模拟人类常识进行逻辑推理，并在现实环境中高效精准地执行任务，从而有效解决了复杂环境感知与物理空间认知的难题。通过集成多场景泛化和多任务处理能力，不论是生活场景还是工业场景，都能游刃有余的应对。大会现场展示中，“夸父”可以通过识别物品、问答互动、击掌、递水等互动演示，直观展示了双方基于盘古大模型的合作成果。通过模仿学习策略显著提升了人形机器人的双臂操作能力，实现了软硬件层面的协同优化，不仅增强了机器人综合性能，还克服了小样本数据训练的局限性，推动了泛化操作能力的边界。张平安在大会上表示，除了人形机器人，盘古具身智能大模型还可以赋能多种形态的工业机器人和服务机器人，让它们帮助人类去从事危险和繁重的工作。具身智能大模型可以让机器人作用更加广泛，未来真正实现让AI机器人帮助我们去洗衣、做饭、扫地，让我们有更多的时间去看书，写诗，作画。 ... PC版：手机版：

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型 Figure，OpenAI 投资的机器人公司，上传了这段视频。在视频中，Figure 的人形机器人，可以完全与人类流畅对话，理解人类的意图，同时还能理解人的自然语言指令进行抓取和放置，并解释自己为什么这么做。而其背后，就是 OpenAI 为其配置的智能大脑。在过去一年的具身智能进展中，或许你曾经看过类似的机器人自主决策、拿取物品的展示，但在这段视频中，Figure 人形机器人的对话流畅度、展现出的智能感，接近人类操作速度的动作流畅性，绝对都是第一流的。Figure 还特意强调，整段视频没有任何加速，也没有任何剪辑，是一镜到底拍摄的。同时，机器人是在完全自主的情况下进行的行为，没有任何远程操纵似乎在暗暗讽刺前段时间爆火的展现了酷炫机械能力，但是没有太多智能程度的斯坦福炒菜机器人。比起机器人的智能表现，更可怖的是，这只是 OpenAI 小试牛刀的结果从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿，到这个视频的发布，只有短短的十三天。此次 Figure 人形机器人背后的智能，来自端到端的大语言-视觉模型，这是具身智能领域目前非常前沿的领域。去年极客公园报道过Google在类似领域的进展。Google做出的端到端机器人控制模型，被一些行业内的人士，誉为机器人大模型的 GPT-3 时刻。而当时，Google的机器人模型，还只能根据对话来做一些抓取，并不能与人类对话，也不能向人类解释自己为什么会这么做。而Google自身，从 Everyday Robotics 开始，已经有了五年以上的机器人研究经验。而 Figure 本身，成立于 2022 年。从OpenAI 宣布介入与之合作，到今天它们共同推出一个能够自主对话和决策的机器人，只有 13 天。机器人智能的发展，显然正在加速。01. 端到端大模型驱动，机器人的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破，由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过，内化了的能力，而不是来自远程操作。研究人员将机器人摄像头中的图像输入，和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型（VLM）中，由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。同样的模型，也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令，将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人，属于“端到端”的机器人控制。从语言输入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像，然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到，这代表机器人的速度已经有显著提高，开始接近人类的速度。Corey Lynch 的 XOpenAI 的模型的多模态能力，是机器人可以与世界交互的关键，我们能够从视频中展示中看到许多类似的瞬间，比如：描述一下它的周围环境。做出决定时使用常识推理。例如，“桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架”。将“我饿了”等模棱两可的高级请求转化为一些适合上下文的行为，例如“递给对方一个苹果”。用简单的英语描述*为什么*它会执行特定的操作。例如，“这是我可以从桌子上为您提供的唯一可食用的物品”。而模型能力的强大，使其还能够拥有短期记忆，比如视频中展示的“你能把它们放在那里吗？”“它们”指的是什么？“那里”又在哪里？正确回答需要反思记忆的能力。而具体的双手动作，可以分成两步来理解：首先，互联网预训练模型对图像和文本进行常识推理，以得出高级计划。如视频中展示的：Figure 的人形机器人快速形成了两个计划：1）将杯子放在碗碟架上，2）将盘子放在碗碟架上。其次，大模型以 200hz 的频率生成的 24-DOF 动作（手腕姿势和手指关节角度），充当高速“设定点（setpoint）”，供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力，如保持平衡。所有行为均由神经网络视觉运动 Transformer 策略驱动，将像素直接映射到动作。02.从 ChatGPT 到 Sora，再到机器人，OpenAI 想包揽“智能”这件事2021 年夏天，OpenAI 悄悄关闭了其机器人团队，当时，OpenAI 曾宣布无限期终止对机器人领域的探索，原因是缺乏训练机器人使用人工智能移动和推理所需的数据，导致研发受到阻碍。但显然，OpenAI 并没有放下对这个领域的关注。2023 年 3 月，正在一年前，极客公园报道了 OpenAI 投资了来自挪威的机器人制造商 1X Technologies。其副总裁正是我在文初提到的，认为具身智能将会突然到来的 Eric Jang。而无独有偶，1X Technologies 的技术方向，也是端到端的神经网络对于机器人的控制。而今年 3 月初，OpenAI 和其他投资人一起，参与了 Figure 的 B 轮融资，使其成立两年，就达到了 26 亿美金估值。也正是在这一轮融资之后，OpenAI 宣布了与 Figure 的合作。Figure 的创始人 Brett Adcock，是个“擅长组局”的连续创业者，整个职业生涯中创立过至少 7 家公司，其中一家以 27 亿美元的估值上市，一家被 1.1 亿美元的价格收购。创建公司后，他招募到了研究科学家 Jerry Pratt 担任首席技术官，前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch，则原本是 Google Deepmind 的 AI 研究员。Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面，都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前，已经做出了不少成绩。2024 年 1 月，Figure 01（Figure 的第一款人形机器人）学会了做咖啡，公司称，这背后引入了端到端神经网络，机器人学会自己纠正错误，训练时长为 10 小时。Figure 01 引入 AI 学会做咖啡2 月，公司对外展示 Figure 01 的最新进展，在视频里，这个机器人已经学会搬箱子，并运送到传送带上，但速度只有人类的 16.7%。甚至在商业化上，也已经迈出了第一步：Figure 宣布与宝马制造公司签署商业协议，将 AI 和机器人技术整合到汽车生产中，部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。而在今天的视频展示推文中，Figure 宣布其目标是训练一个世界模型，最终能够卖出十亿个级别的模型驱动的人形机器人。不过，尽管OpenAI与 Figure的合作进展顺畅，但看起来 OpenAI 并未把宝压在一家机器人公司。北京时间 3 月 13 日，来自Google研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融资。毫无意外，该公司，也是研究未来能够成为通用机器人系统的人工智能。多头下注机器人领域，13 天合作做出领先的机器人大模型，OpenAI 在机器人领域意图为何，引人关注。智能人形机器人，未来不止看马斯克的了。 ... PC版：手机版：

香港首个自主研发基础大模型初步完成

香港首个自主研发基础大模型初步完成第二届香港国际创科展日前在香港会议展览中心开幕。香港科技大学首席副校长兼“香港生成式人工智能研发中心”(HKGAI)主任郭毅可在展会上接受记者采访时透露，由HKGAI训练、香港首个自主研发的基础大模型已初步完成。郭毅可表示，该大模型支持中文和英语，将为香港人工智能发展开辟新里程。他介绍，HKGAI在香港国际创科展上还首度向公众展示了10项自主开发的生成式人工智能服务和应用。这些人工智能研发成果包括，能实时让用户获得法律顾问、导游等各行各业信息的“专家咨询服务机器人”、将用户照片自动生成动画和合成图片的“跨越时空的相遇”应用、利用深度鉴伪技术实时分辨图片真伪的“AI火眼金睛”软件，以及辅助日常文书工作的“未来写作助手”机器人等。

用Python编写的Discord机器人示例，它使用完成API与模型进行对话，并使用审核API过滤消息。

用Python编写的Discord机器人示例，它使用完成API与模型进行对话，并使用审核API过滤消息。此存储库不接受拉取请求。如果要添加或更改功能，请分叉此存储库。特征： /chat启动一个公共线程，参数是传递给机器人的第一条用户消息message；该模型将为以开头的任何线程中的每个用户消息生成回复/chat；对于每个请求，整个线程都将传递给模型，因此模型将记住线程中以前的消息；当达到上下文限制或线程中达到最大消息计数时，机器人将关闭线程；可通过修改来自定义机器人指令config.yaml；可更改模型，硬编码值为text-davinci-003

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了折叠衣物（3 倍速播放）：对柔性物体的操作长久以来都是困扰整个 manipulation 领域的难题，需要高度灵活的操作和精细的动作协调。切火腿（2 倍速播放）：复杂的摩擦和阻力，难以用传统方法快速建模，需要精确的力度控制与物体定位。切黄瓜，2 倍速播放：在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍（2 倍速播放）：自修正的 close loop 控制能力，在不同压力和表面条件下的精细力度控制，实时检测并调整擦拭动作，确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉（3 倍速播放）：使用工具的过程中，处理复杂的摩擦一直以来都是极大难点。冲果汁，举起水壶往杯中倒入适量的水（3 倍速播放）：流体引入大量的随机性，准确操作非常困难。这家去年底成立的公司，汇聚了来自世界著名人工智能 / 机器人学实验室以及国内外顶尖高校的优秀人才，拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”，专注于机器人领域的基础模型（foundation model）研发。目前，团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型（“中枢神经”），目标是能够控制低成本硬件（如数千元的机械臂），完成包括烹饪、打扫卫生在内的日常家务，并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作，以及完成其他达到人类水平的通用操作任务。基于具身智能大模型，开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想，但在现实生活中，能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划，以及有效的人机交互能力。此外，技术的集成、机器人的安全性、续航能力、成本等，也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式，很难根据环境变化自主调整策略，从长远看也几乎不可能规模化。大语言模型（LLM）等人工智能技术的突破，为机器人领域带来了新的曙光。Google的 RT-2 系统将视觉-语言-动作模型与机器人技术相结合，使机器人能够处理复杂场景，并响应人类的指令。DeepMind 的 AutoRT 系统则使用视觉-语言模型（VLM），帮助机器人适应未知环境，并利用 LLM 来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势，有望帮助机器人逼近甚至超越人类的水平。X Square 认为，目前机器人领域正处于技术的代际更迭之际。斯坦福 ALOHA 等项目表明，通用机器人发展的瓶颈在于智能而非硬件。事实上，机器人领域长期以来面临的两大困难，一是如何在复杂环境中精确感知并做出精细的操作（low level 智能），二是缺乏类似人类的推理、规划、交互等高级认知能力（high level 智能）。从感知到行动，机器人的智能可以被视为一个从 high level 逐步到 low level 的决策过程。大模型的出现为解决上述难题带来了新思路。运用 LLM 或 VLM 来进行高阶推理与规划、与人交互，已经成为业界公认的发展方向。但是，直接用单一的大模型来驱动端到端的机器人 manipulation，目前尝试的团队还不多。X Square 的独特之处便在于此，团队基于过往在模型、算法、系统、硬件等方面的科研成果积累，集合所有技能训练“机器人 Large Manipulation Model”，从手部操作切入，基于具身大模型来构建可以精细操作的通用机器人。团队希望结合 high-level 的推理规划模型与 low-level 的操作控制模型，打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为 X Square，寓意要同时在 high level 推理和 low level 控制这两个维度做大模型，并把两者有机结合。目前我们在两个方向都已有不错的基础，有信心在一年内从追赶到超越目前的世界领先水平。”X Square 指出：“与腿的移动能力相比，手的操作能力包含了更丰富和复杂的动作，要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿，X Square 更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂，可以大幅降低成本，2-3 年内整体硬件成本有望降至 1 万美元以下，我们认为放弃 5% 的人形功能来换取数量级的成本优势是值得的。”软硬件一体，驱动数据飞轮“我们希望模型拥有怎样的能力，就需要提供给模型什么样的数据。是数据，而非算法或结构决定了模型的能力，这是当今时代的核心方法论。”机器人的特殊性在于，它是一个具有前所未有复合性的综合系统。相比纯软件的 LLM 和多模态大模型，具身智能大模型虽然在规模上暂时无法与之相比，但在工程上难度要高出许多，它必须在海量的真实和模拟场景中不断实践、学习。因此，能否找准技术方向，在降低开发成本和提高迭代效率的同时，打造高质量的数据采集能力，控制试错成本，最终实现规模化，是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求，因为是否具有足够的软硬结合能力，在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展，是 X Square 的核心理念。无论是机器人本体的形态设计，还是数据采集系统，都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上，X square 也有自己独特的理解和创新。“除了需要有专门的数据，还需要针对性的结构设计和训练方法，不能单纯套用其他领域的大模型经验，因为它必须直接面对复杂的真实世界，要在真实世界中不断实践、迭代。”同时，由于大模型与传统 deep learning for robotics 具有相当的 gap，是否真正具备足够的大模型训练落地经验，决定了能否快速构建通用具身智能大模型。这也正是 X Square 的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work，以 Transformer 为底座算法模型不能很好地支持因果关系的推理，而因果性在机器人所在的物理世界中大量出现，并在机器人操作中起关键作用。为了处理因果性，目前有很多 world model 的尝试。但当前的世界模型要么完全集中在图像 / 视频重建上（如 Sora），要么完全集中在高层语义理解上，缺乏适合机器人的形态。”X Square 笃定机器人大模型这个方向，一方面是基于团队成员亲历深度学习从被质疑到一统江湖，以及 LLM 从默默无闻到大放异彩的技术浪潮，另一方面，也是看好中国作为全球硬件中心，拥有得天独厚的产业链优势，也有利于快速缩短机器人的研发周期。团队在不到 3 个月的时间里，就完成了技术架构的搭建和早期模型的训练，展现出惊人的成长速度和卓越的工程能力。“在现阶段，我们也积极寻求与上下游合作伙伴的协作，实现智能的迭代升级。未来，随着具身智能大模型技术的日益成熟，我们会更聚焦于特定应用场景，推出自己的机器人产品，例如能完成做饭、打扫等复杂家务的机器人保姆，甚至进行老年人康养护理等服务。”X Square 表示。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人