人形机器人变火的原因是,今年智能/泛化能力大幅加强,让通用成为可能。以前行业之所以迭代很慢,是因为每学一套新动作,就需要重新编程

人形机器人变火的原因是,今年智能/泛化能力大幅加强,让通用机器人成为可能。以前机器人行业之所以迭代很慢,是因为每学一套新动作,就需要重新编程一次。而现在有了智能泛化能力的突破,只需要语音控制,机器人就能实现功能,这是一种底层转变,通用性更强、应用场景更多

相关推荐

封面图片

微软两头押注 投资Sanctuary AI开展通用机器人研究

微软两头押注 投资Sanctuary AI开展通用机器人研究 与 Sanctuary 的合作真正触及了微软在人工智能领域的核心利益:人工通用智能(AGI)。这是一个在讨论仿人机器人时经常出现的概念鉴于目前的情况,虽然这种突破可能还需要几年的时间(至少),但它们是仿人机器人达到长期承诺的"通用地位"的必要条件。从本质上讲,这意味着机器人可以像人类一样学习和推理。这代表着机器人能力的潜在飞跃,传统上,机器人只能完成一两项任务。与单一用途的系统相比,仿人外形为这些系统提供了更广泛的运动范围,但它们最终需要与之相匹配的智能。Sanctuary 联合创始人兼首席执行官乔迪-罗斯(Geordie Rose)指出:"创造能像我们一样思考并理解我们的系统,是我们将面临的最大的文明级技术问题和机遇之一。这样的挑战需要全球最优秀的人才通力合作。我们很高兴能与微软合作,开启下一代人工智能模型,为通用机器人提供动力。"这种合作关系加深了微软对人工智能发展的承诺,并提供了一个可以按照这些规格设计硬件的合作伙伴。Sanctuary 公司已经在这一领域运作了一段时间,最近与麦格纳公司(Magna)建立了试点合作关系,将为汽车厂带来最新版本的凤凰系统。Sanctuary号称"已经在 15 个不同行业的 400 项客户定义的任务中进行了测试"。当然,他们仍处于所有这一切的早期阶段。微软创始人比尔-盖茨今年早些时候谈到了自己对人形机器人的兴趣。虽然他花了一些时间讨论竞争对手 Agility 和 Apptronik,但 Sanctuary 和 Figure 都没有被提及。在这一领域进行对冲的不只微软一家。OpenAI(微软的另一个合作伙伴)也对 Figure 和竞争对手 1X 进行了投资。 ... PC版: 手机版:

封面图片

机器未来3-5年智能化所需的能力

机器未来3-5年智能化所需的能力 模拟:模型能加速模拟环境开发,连接3D开发人员,构建场景、环境,生成资产。这些GenAI资产能广泛应用于合成数据生成、机器人技能训练和软件测试; 多模态大模型接入:基于Transformer的模型能帮助机器人更好地理解周围世界,让它们可以在更多环境中工作,完成复杂任务。 机器人(重新)编程:能更简单地用简单语言定义任务和功能,让机器人更加通用和多用途,通用机器人永远要和场景适配 执行:为了提高效率,结合新颖的机械设计,比如末端执行器\灵巧手(目前成本比较高可控性还不够)提升使用工具的能力 #AI #机器人

封面图片

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相 据介绍,盘古大模型能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。大模型的多模态能力以及思维能力的快速提升,使机器人能够模拟人类常识进行逻辑推理,并在现实环境中高效精准地执行任务,从而有效解决了复杂环境感知与物理空间认知的难题。通过集成多场景泛化和多任务处理能力,不论是生活场景还是工业场景,都能游刃有余的应对。大会现场展示中,“夸父”可以通过识别物品、问答互动、击掌、递水等互动演示,直观展示了双方基于盘古大模型的合作成果。通过模仿学习策略显著提升了人形机器人的双臂操作能力,实现了软硬件层面的协同优化,不仅增强了机器人综合性能,还克服了小样本数据训练的局限性,推动了泛化操作能力的边界。张平安在大会上表示,除了人形机器人,盘古具身智能大模型还可以赋能多种形态的工业机器人和服务机器人,让它们帮助人类去从事危险和繁重的工作。具身智能大模型可以让机器人作用更加广泛,未来真正实现让AI机器人帮助我们去洗衣、做饭、扫地,让我们有更多的时间去看书,写诗,作画。 ... PC版: 手机版:

封面图片

【中国科学院院士姚期智:通用人工智能依托具身实体与物理世界交互,能带来更大价值】

【中国科学院院士姚期智:通用人工智能依托具身实体与物理世界交互,能带来更大价值】 在2023世界机器人大会上,工作人员介绍,2023年展出的人形机器人关节灵活度得到升级,面部表情也变得丰富,人工智能技术提升了它们对情绪的感知和表达能力,让“人”与人的交流更顺畅。中国科学院院士、清华大学交叉信息研究院院长姚期智表示,通用人工智能依托具身实体与物理世界交互,能带来更大价值。具身通用人工智能最合适的“身体”自然是人形机器人,它应具备由传感器和执行器组成的“身体”,主导视觉、触觉各种感知的“小脑”和主导逻辑推理、决策、语言等的“大脑”三部分。 快讯/广告 联系 @xingkong888885

封面图片

生成式人工智能让机器人离通用目标又近一步

生成式人工智能让机器人离通用目标又近一步 研究人员一直在努力开发一种机器人智能,使其能够充分利用双足仿人设计所带来的广泛运动能力。在机器人技术中使用生成式人工智能也是近期的热门话题。麻省理工学院的最新研究表明,后者可能会对前者产生深远影响。在通往通用系统的道路上,最大的挑战之一就是培训。我们已经掌握了培训人类从事不同工作的最佳方法。机器人技术的方法虽然前景广阔,但却支离破碎。有很多有前途的方法,包括强化学习和模仿学习,但未来的解决方案可能会涉及这些方法的组合,并通过生成式人工智能模型加以增强。麻省理工学院团队提出的主要用途之一,就是从这些小型特定任务数据集中整理相关信息的能力。这种方法被称为策略合成(PoCo)。任务包括有用的机器人动作,如敲钉子和用锅铲翻转东西。团队指出:"[研究人员]训练一个单独的扩散模型,学习一种策略或政策,利用一个特定的数据集完成一项任务。然后,他们将扩散模型学习到的策略组合成一个通用策略,使机器人能够在各种环境下执行多项任务。"根据麻省理工学院公布的数据,采用扩散模型后,任务性能提高了 20%。这包括执行需要多种工具的任务的能力,以及学习/适应陌生任务的能力。该系统能够将来自不同数据集的相关信息整合到执行任务所需的行动链中。"这种方法的好处之一是,我们可以将政策结合起来,以获得两个世界的最佳效果,"论文的第一作者王立瑞说。"例如,在真实世界数据基础上训练的政策可能会更灵巧,而在模拟基础上训练的政策可能会更通用"。这项具体工作的目标是创建智能系统,使机器人能够交换不同的工具来执行不同的任务。多用途系统的普及将使该行业离通用梦想更近一步。 ... PC版: 手机版:

封面图片

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了

叠衣服、擦案板、冲果汁……能做家务的国产机器人终于要来了 折叠衣物(3 倍速播放):对柔性物体的操作长久以来都是困扰整个 manipulation 领域的难题,需要高度灵活的操作和精细的动作协调。切火腿(2 倍速播放):复杂的摩擦和阻力,难以用传统方法快速建模,需要精确的力度控制与物体定位。切黄瓜,2 倍速播放:在一种物体上习得的能力直接泛化到不同物体的操作上。用海绵擦掉案板上的污渍(2 倍速播放):自修正的 close loop 控制能力,在不同压力和表面条件下的精细力度控制,实时检测并调整擦拭动作,确保彻底清洁污渍。用勺子从罐子里取出适量的果汁粉(3 倍速播放):使用工具的过程中,处理复杂的摩擦一直以来都是极大难点。冲果汁,举起水壶往杯中倒入适量的水(3 倍速播放) :流体引入大量的随机性,准确操作非常困难。这家去年底成立的公司,汇聚了来自世界著名人工智能 / 机器人学实验室以及国内外顶尖高校的优秀人才,拥有雄厚的科研背景。公司的目标是“将人类从无意义的体力劳动中解放出来”,专注于机器人领域的基础模型(foundation model)研发。目前,团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型(“中枢神经”),目标是能够控制低成本硬件(如数千元的机械臂),完成包括烹饪、打扫卫生在内的日常家务,并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作,以及完成其他达到人类水平的通用操作任务。基于具身智能大模型,开发通用机器人平台尽管机器人管家是人类对智能未来最具代表性的畅想,但在现实生活中,能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划,以及有效的人机交互能力。此外,技术的集成、机器人的安全性、续航能力、成本等,也是必须克服的重要障碍。传统的机器人通常采用基于规则和单一任务环境的方式,很难根据环境变化自主调整策略,从长远看也几乎不可能规模化。大语言模型(LLM)等人工智能技术的突破,为机器人领域带来了新的曙光。Google的 RT-2 系统将视觉-语言-动作模型与机器人技术相结合,使机器人能够处理复杂场景,并响应人类的指令。DeepMind 的 AutoRT 系统则使用视觉-语言模型(VLM),帮助机器人适应未知环境,并利用 LLM 来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势,有望帮助机器人逼近甚至超越人类的水平。X Square 认为,目前机器人领域正处于技术的代际更迭之际。 斯坦福 ALOHA 等项目表明,通用机器人发展的瓶颈在于智能而非硬件。事实上,机器人领域长期以来面临的两大困难,一是如何在复杂环境中精确感知并做出精细的操作(low level 智能),二是缺乏类似人类的推理、规划、交互等高级认知能力(high level 智能)。从感知到行动,机器人的智能可以被视为一个从 high level 逐步到 low level 的决策过程。大模型的出现为解决上述难题带来了新思路。运用 LLM 或 VLM 来进行高阶推理与规划、与人交互,已经成为业界公认的发展方向。但是,直接用单一的大模型来驱动端到端的机器人 manipulation,目前尝试的团队还不多。X Square 的独特之处便在于此,团队基于过往在模型、算法、系统、硬件等方面的科研成果积累,集合所有技能训练“机器人 Large Manipulation Model”,从手部操作切入,基于具身大模型来构建可以精细操作的通用机器人。团队希望结合 high-level 的推理规划模型与 low-level 的操作控制模型,打造一个类似“机器人大脑-小脑”的通用操作系统。“我们公司名为 X Square,寓意要同时在 high level 推理和 low level 控制这两个维度做大模型,并把两者有机结合。目前我们在两个方向都已有不错的基础,有信心在一年内从追赶到超越目前的世界领先水平。”X Square 指出:“与腿的移动能力相比,手的操作能力包含了更丰富和复杂的动作,要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。”不同于很多人形机器人公司关注对人体形态的模仿,X Square 更关注实现接近人类的功能。“采用轮式移动底盘搭配双臂,可以大幅降低成本,2-3 年内整体硬件成本有望降至 1 万美元以下,我们认为放弃 5% 的人形功能来换取数量级的成本优势是值得的。”软硬件一体,驱动数据飞轮“我们希望模型拥有怎样的能力,就需要提供给模型什么样的数据。是数据,而非算法或结构决定了模型的能力,这是当今时代的核心方法论。”机器人的特殊性在于,它是一个具有前所未有复合性的综合系统。相比纯软件的 LLM 和多模态大模型,具身智能大模型虽然在规模上暂时无法与之相比,但在工程上难度要高出许多,它必须在海量的真实和模拟场景中不断实践、学习。因此,能否找准技术方向,在降低开发成本和提高迭代效率的同时,打造高质量的数据采集能力,控制试错成本,最终实现规模化,是决定成败的关键因素。这对团队软硬一体的能力提出了很高的要求,因为是否具有足够的软硬结合能力,在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展,是 X Square 的核心理念。无论是机器人本体的形态设计,还是数据采集系统,都是为机器人“中枢神经系统”的开发在服务。在模型算法设计上,X square 也有自己独特的理解和创新。“除了需要有专门的数据,还需要针对性的结构设计和训练方法,不能单纯套用其他领域的大模型经验,因为它必须直接面对复杂的真实世界,要在真实世界中不断实践、迭代。”同时,由于大模型与传统 deep learning for robotics 具有相当的 gap,是否真正具备足够的大模型训练落地经验,决定了能否快速构建通用具身智能大模型。这也正是 X Square 的优势所在。“目前语言大模型的训练预测架构在机器人上不完全work,以 Transformer 为底座算法模型不能很好地支持因果关系的推理,而因果性在机器人所在的物理世界中大量出现,并在机器人操作中起关键作用。为了处理因果性,目前有很多 world model 的尝试。但当前的世界模型要么完全集中在图像 / 视频重建上(如 Sora),要么完全集中在高层语义理解上,缺乏适合机器人的形态。”X Square 笃定机器人大模型这个方向,一方面是基于团队成员亲历深度学习从被质疑到一统江湖,以及 LLM 从默默无闻到大放异彩的技术浪潮,另一方面,也是看好中国作为全球硬件中心,拥有得天独厚的产业链优势,也有利于快速缩短机器人的研发周期。团队在不到 3 个月的时间里,就完成了技术架构的搭建和早期模型的训练,展现出惊人的成长速度和卓越的工程能力。“在现阶段,我们也积极寻求与上下游合作伙伴的协作,实现智能的迭代升级。未来,随着具身智能大模型技术的日益成熟,我们会更聚焦于特定应用场景,推出自己的机器人产品,例如能完成做饭、打扫等复杂家务的机器人保姆,甚至进行老年人康养护理等服务。”X Square 表示。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人