机器人“疯狂的一年”拉开序幕:基础模型、通用具身智能指日可待?

机器人“疯狂的一年”拉开序幕:机器人基础模型、通用具身智能指日可待? 在这次采访中,被问到“眼下正在发生哪些你认为将改变一些的事情”时,这位“地球上最重要股票”的掌门人表示,“有几件事。其中之一没有真正的名字,但它是我们在基础机器人领域做的一些工作。如果你可以生成文本、生成图像,你也可以生成运动吗?答案可能是可以。那么,如果你可以生成动作,你就可以理解意图并生成通用版本。因此,人形机器人技术指日可待。”在采访发布的同日,英伟达高级研究科学家Jim Fan宣布,将与Yuke Zhu携手在英伟达组建一个研究小组GEAR,全称Generalist Embodied Agent Research,意为“通用具身智能体研究”。他认为,未来每一台移动的机器都将是自主的,机器人与模拟智能体将和iPhone一样无处不在。“我们正在打造基础智能体:一个具备通用能力的AI,其能在虚拟与现实的多个世界中学习如何熟练行动。2024年将是机器人之年、游戏AI之年、模拟之年。”此外,英伟达、贝索斯等将投资人形机器人公司Figure AI,以期为AI寻找新应用。Figure AI此前曾得到OpenAI和微软支持,其将在一轮融资中筹集约6.75亿美元,交易前估值约为20亿美元。贝索斯通过旗下Explore Investments LLC承诺投资1亿美元,微软将投资9500万美元,英伟达和一个亚马逊附属的基金将各提供5000万美元。Figure AI年初凭借一条人形机器人煮咖啡的视频火爆全网,该机器人使用端到端的AI系统,仅通过观察人类煮咖啡,即可在10小时内完成训练。之后,该公司宣布,旗下机器人入驻宝马汽车工厂。英伟达这边动作不断,马斯克则在当地时间2月24日分享了特斯拉人形机器人Optimus(擎天柱)的最新视频。视频中,Optimus的步态更加稳健,行走体态也更接近人类;改变行进方向时极为顺滑,没有僵硬的机械感,且转向的同时并未停止前进。Optimus机器人工程师Milan Kovac介绍,这是Optimus有史以来最快的步态,速度约为 0.6 米/秒,与12月发布的视频相比,速度提高了30%。“我们改进了前庭系统、脚部轨迹和地面接触逻辑;升级了运动规划器,并缩短了整个机器人的环路延迟。Optimus整体行走稳定性和自信程度上都有所提升,即使在转弯时也表现优异。我们还增加了轻微的躯干和手臂摇摆。”机器人+AI“疯狂的一年” 券商建议关注四条主线“未来几周将会有3-4条重大新闻发布,这些消息将震撼机器人+人工智能领域。调整你的时间表,这将是疯狂的2024年。”谷歌DeepMind研究科学家Ted Xiao在当地时间2月22日如此预告。机器人板块春节后强势反弹,中信证券研报指出,主因为特斯拉人形机器人产业链进度预期改善、AI巨头点燃机器人技术创新之火、政策端及厂商端持续利好更新,此外流动性问题缓解也为板块反弹提供了条件。产业发展进度在AI加持下将大大加快。板块反弹处于初始阶段,2024年将是人形机器人快速发展的一年。在产业链进度预期改善、巨头技术突破、新品发布和迭代、政策落地等因素的催化下,分析师看好机器人产业发展和板块回暖,建议关注以下四条主线:1)人形机器人核心高确定性公司;2)与英伟达合作的机器人标的;3)业绩预期较好,具备估值安全垫的标的;4)超跌及强概念股。 ... PC版: 手机版:

相关推荐

封面图片

英伟达进军机器人领域 发布世界首款人形通用基础模型

英伟达进军机器人领域 发布世界首款人形机器人通用基础模型 英伟达正通过推出名为Project GR00T的新型人形机器人基础模型,进一步进军机器人领域。基础模型是一种人工智能系统,它使用海量数据进行训练,能够用于各种各样的任务,从生成句子到视频、图像等等。据Nvidia,Project GR00T将帮助人形机器人“理解自然语言并通过观察人类行为来模仿动作 - 快速学习协调性、灵活性和其他技能,以便导航、适应并与现实世界互动。除了Project GR00T,英伟达还发布了其Isaac机器人平台的一部分Isaac Manipulator和Isaac Perceptor。Isaac Manipulator是一系列专为机械臂设计的基础模型,而Issac Perceptor旨在为设计用于制造和履行任务的机器人提供“多摄像头、3D环绕视觉能力”。此外,这家图形巨头还推出了用于人形机器人的Jetson Thor计算平台。该平台由英伟达的Thor系统芯片提供动力,将成为人形机器人的大脑。英伟达在声明中表示:“Jetson Thor被打造为一个全新的计算平台,能够执行复杂的任务并安全自然地与人和机器互动。它拥有模块化架构,在性能、功耗和尺寸方面都进行了优化。”GR00T正好和《银河护卫队》电影中的树人格鲁特(Groot)同名该公司表示,他们已经与一些机器人领域的大牌公司合作,包括以Spot机器人闻名的波士顿动力 (Boston Dynamics)、1X Technologies、Agility Robotics、Apptronik和Figure AI。其中,Figure AI近期备受关注,上周发布了一段视频,展示了人形机器人根据提示进行类人对话并完成一系列任务,例如拾取盘子并将其放入沥水架。虽然这看起来似乎没什么特别,但让机器人识别每个物品并精确移动它们的技术非常复杂。今年2月,英伟达与微软、OpenAI、Jeff Bezos、Parkway Capital、Intel Capital 等公司一起参加了Figure AI的B轮融资,使该公司估值达到26亿美元。人形机器人有望让人们完成危险或重复性的工作,但和其他AI技术一样,它们也让人们担心会取代人类的工作岗位。当然,不要指望人形机器人很快就能在街上闲逛。 ... PC版: 手机版:

封面图片

ℹ人形机器人在汽车制造业的应用前景 Optimus、Walker S、Figure-01 工厂实战表现#

ℹ人形机器人在汽车制造业的应用前景 Optimus、Walker S、Figure-01 工厂实战表现# 继特斯拉之后,优必选和 Figure 也展示了自家人形机器人在工厂实际工作的影片,先来介绍中国优必选公司的人型机器人 Walker S,优...

封面图片

人形机器人公司 Figure AI 与德国汽车制造巨头宝马 (BMW) 达成商业合作协议,计划将通用型人形引入汽车生产线。这一合

人形机器人公司 Figure AI 与德国汽车制造巨头宝马 (BMW) 达成商业合作协议,计划将通用型人形机器人引入汽车生产线。这一合作标志着通用型机器人在工业应用中迈出了重要一步。传统的工业机器人通常是为特定任务设计的,而 Figure 的人形机器人旨在执行更广泛的工作,有潜力在制造过程中承担各种复杂、危险或重复性的任务。(寒武纪)

封面图片

英伟达发布新的机器人制造平台 添加生成式AI功能

英伟达发布新的机器人制造平台 添加生成式AI功能 生成式AI的加入将使人形机器人根据语言、视频、“人类示范”和过去的经验相结合的输入采取行动。这个被称为“GR00T项目”的生成式AI组件将添加到英伟达现有的机器人硬件和软件平台上。英伟达Omniverse和仿真技术副总裁Rev Lebaredian在新闻发布会上说:“这些更智能、更快、更好的机器人将被部署在全球的重工业中。我们正在与全球整个机器人和仿真生态系统合作,以加速开发和采用。”新的生成式AI软件背后的强大计算机被称为“杰森·索尔”(Jetson Thor),基于英伟达的一款人工智能芯片和其他硬件。该公司表示,这台计算机将为机器人提供足够的计算能力,以执行复杂的任务,并与人和机器互动。英伟达表示,这套软件工具被称为“艾萨克”(Isaac)平台,新的GR00T生成式AI功能被设计用于“任何环境下的任何机器人化身”。这些工具包括训练软件随着时间的推移做出更好决策的能力,这一过程被称为强化学习。英伟达还表示,将发布预先训练过的机器人模型和其他软件,以改进机械臂功能和多摄像头感应能力。 ... PC版: 手机版:

封面图片

英伟达推出GR00T N1机器人基础模型,宣布"通用时代"已经来临

英伟达推出GR00T N1机器人基础模型,宣布"通用机器人时代"已经来临 英伟达正式发布开源、可定制的机器人基础模型Isaac GR00T N1,旨在加速类人机器人开发。CEO黄仁勋在2025年GTC大会上宣布"通用机器人时代正式来临"。 该模型采用类似人脑的双系统架构设计,包括"快速行动模型"和"慢速思考模型"。现场演示中,挪威1X Technologies的NEO Gamma机器人展示了自主完成家居整理的能力。波士顿动力等多家知名机器人公司已提前体验该模型。目前,GR00T N1的训练数据和评测场景已在Hugging Face和GitHub平台免费公开。

封面图片

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型 Figure,OpenAI 投资的机器人公司,上传了这段视频。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。在过去一年的具身智能进展中,或许你曾经看过类似的机器人自主决策、拿取物品的展示,但在这段视频中,Figure 人形机器人的对话流畅度、展现出的智能感,接近人类操作速度的动作流畅性,绝对都是第一流的。Figure 还特意强调,整段视频没有任何加速,也没有任何剪辑,是一镜到底拍摄的。同时,机器人是在完全自主的情况下进行的行为,没有任何远程操纵似乎在暗暗讽刺前段时间爆火的展现了酷炫机械能力,但是没有太多智能程度的斯坦福炒菜机器人。比起机器人的智能表现,更可怖的是,这只是 OpenAI 小试牛刀的结果从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿,到这个视频的发布,只有短短的十三天。此次 Figure 人形机器人背后的智能,来自端到端的大语言-视觉模型,这是具身智能领域目前非常前沿的领域。去年极客公园报道过Google在类似领域的进展。Google做出的端到端机器人控制模型,被一些行业内的人士,誉为机器人大模型的 GPT-3 时刻。而当时,Google的机器人模型,还只能根据对话来做一些抓取,并不能与人类对话,也不能向人类解释自己为什么会这么做。而Google自身,从 Everyday Robotics 开始,已经有了五年以上的机器人研究经验。而 Figure 本身,成立于 2022 年。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有 13 天。机器人智能的发展,显然正在加速。01. 端到端大模型驱动,机器人的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。Corey Lynch 的 XOpenAI 的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:描述一下它的周围环境。做出决定时使用常识推理。例如,“桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架”。将“我饿了”等模棱两可的高级请求转化为一些适合上下文的行为,例如“递给对方一个苹果”。用简单的英语描述*为什么*它会执行特定的操作。例如,“这是我可以从桌子上为您提供的唯一可食用的物品”。而模型能力的强大,使其还能够拥有短期记忆,比如视频中展示的“你能把它们放在那里吗?”“它们”指的是什么?“那里”又在哪里?正确回答需要反思记忆的能力。而具体的双手动作,可以分成两步来理解:首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划。如视频中展示的:Figure 的人形机器人快速形成了两个计划:1)将杯子放在碗碟架上,2)将盘子放在碗碟架上。其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速“设定点(setpoint)”,供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力,如保持平衡。所有行为均由神经网络视觉运动 Transformer 策略驱动,将像素直接映射到动作。02.从 ChatGPT 到 Sora,再到机器人,OpenAI 想包揽“智能”这件事2021 年夏天,OpenAI 悄悄关闭了其机器人团队,当时,OpenAI 曾宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,导致研发受到阻碍。但显然,OpenAI 并没有放下对这个领域的关注。2023 年 3 月,正在一年前,极客公园报道了 OpenAI 投资了来自挪威的机器人制造商 1X Technologies。其副总裁正是我在文初提到的,认为具身智能将会突然到来的 Eric Jang。而无独有偶,1X Technologies 的技术方向,也是端到端的神经网络对于机器人的控制。而今年 3 月初,OpenAI 和其他投资人一起,参与了 Figure 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值。也正是在这一轮融资之后,OpenAI 宣布了与 Figure 的合作。Figure 的创始人 Brett Adcock,是个“擅长组局”的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 Google Deepmind 的 AI 研究员。Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前,已经做出了不少成绩。2024 年 1 月,Figure 01(Figure 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。Figure 01 引入 AI 学会做咖啡2 月,公司对外展示 Figure 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。甚至在商业化上,也已经迈出了第一步:Figure 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。而在今天的视频展示推文中,Figure 宣布其目标是训练一个世界模型,最终能够卖出十亿个级别的模型驱动的人形机器人。不过,尽管OpenAI与 Figure的合作进展顺畅,但看起来 OpenAI 并未把宝压在一家机器人公司。北京时间 3 月 13 日,来自Google研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融资。毫无意外,该公司,也是研究未来能够成为通用机器人系统的人工智能。多头下注机器人领域,13 天合作做出领先的机器人大模型,OpenAI 在机器人领域意图为何,引人关注。智能人形机器人,未来不止看马斯克的了。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人