【Figure首发OpenAI大模型加持的机器人demo】

【Figure首发OpenAI大模型加持的机器人demo】 3月14日,明星机器人创业公司Figure发布了自己第一个OpenAI大模型加持的机器人 demo。虽然只用到了一个神经网络,但却可以为听从人类的命令,递给人类 #苹果 、将黑色塑料袋收拾进框子里、将杯子和盘子归置放在沥水架上。Figure创始人Brett Adcock表示,视频中Figure 01展示了端到端神经网络框架下与人类的对话,没有任何远程操作。并且,机器人的速度有了显著的提升,开始接近人类的速度。

相关推荐

封面图片

Figure 01 人形机器人演示,OpenAI 提供支持

Figure 01 人形机器人演示,OpenAI 提供支持 初创公司 Figure AI 今天发布一段,展示了人形机器人 Figure 01 所具备的技能,网友在视频中留言:“未来 5-10 年绝对是一个疯狂的时代”。 Figure 01 身高 167.64 厘米(5 英尺 6 英寸),重 59.8 千克(132 磅),最多可负重 20 千克(44 磅),移动速度为每秒 1.2 米(约每小时 2.7 英里)。 Figure 01 最大的亮点在于利用 OpenAI 的大型语言模型,可以和人类进行正常的完整对话。由于 OpenAI 模型还支持多模态输入,因此可为 Figure 01 提供高级视觉和语言智能。Figure 神经网络可提供快速、低级、灵巧的机器人动作。#视频 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI + Figure 最新成果

OpenAI + Figure 最新成果 机器人在端到端神经网络上与人类对话: → OpenAI 提供视觉推理和语言理解 → Figure 的神经网络提供快速、低等级、灵巧的机器人动作 视频无遥控操作,1 倍速。 Figure 的摄像头被喂入 OpenAI 大型视觉语言模型 (VLM)。 Figure 的神经网络还通过机器人上的摄像头以 10hz 的频率拍摄图像。 然后神经网络以 200hz 输出 24 个自由度的动作。 Domo 中展示的人工智能工作是由 Corey Lynch(刚加入)和 Toki Migimatsu 领导的。

封面图片

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型

只用13天 OpenAI做出了能听、能说、能自主决策的机器人大模型 Figure,OpenAI 投资的机器人公司,上传了这段视频。在视频中,Figure 的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。而其背后,就是 OpenAI 为其配置的智能大脑。在过去一年的具身智能进展中,或许你曾经看过类似的机器人自主决策、拿取物品的展示,但在这段视频中,Figure 人形机器人的对话流畅度、展现出的智能感,接近人类操作速度的动作流畅性,绝对都是第一流的。Figure 还特意强调,整段视频没有任何加速,也没有任何剪辑,是一镜到底拍摄的。同时,机器人是在完全自主的情况下进行的行为,没有任何远程操纵似乎在暗暗讽刺前段时间爆火的展现了酷炫机械能力,但是没有太多智能程度的斯坦福炒菜机器人。比起机器人的智能表现,更可怖的是,这只是 OpenAI 小试牛刀的结果从 OpenAI 宣布与 Figure 共同合作推进人形机器人领域的前沿,到这个视频的发布,只有短短的十三天。此次 Figure 人形机器人背后的智能,来自端到端的大语言-视觉模型,这是具身智能领域目前非常前沿的领域。去年极客公园报道过Google在类似领域的进展。Google做出的端到端机器人控制模型,被一些行业内的人士,誉为机器人大模型的 GPT-3 时刻。而当时,Google的机器人模型,还只能根据对话来做一些抓取,并不能与人类对话,也不能向人类解释自己为什么会这么做。而Google自身,从 Everyday Robotics 开始,已经有了五年以上的机器人研究经验。而 Figure 本身,成立于 2022 年。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有 13 天。机器人智能的发展,显然正在加速。01. 端到端大模型驱动,机器人的速度已经接近人类速度Figure 的创始人 Brett Adcock 和 AI 团队的负责人 Corey Lynch 在 X 上解释了此次视频中机器人互动背后的原理。此次的突破,由 OpenAI 与 Figure 共同做出。OpenAI 提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作。机器人所做出的所有行为都是出于已经学习过,内化了的能力,而不是来自远程操作。研究人员将机器人摄像头中的图像输入,和机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。同样的模型,也负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。这也是为什么这个机器人,属于“端到端”的机器人控制。从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。Figure 的机载摄像头以 10hz 的频率拍摄图像,然后神经网络以 200hz 输出 24 个自由度动作。Figure 的创始人提到,这代表机器人的速度已经有显著提高,开始接近人类的速度。Corey Lynch 的 XOpenAI 的模型的多模态能力,是机器人可以与世界交互的关键,我们能够从视频中展示中看到许多类似的瞬间,比如:描述一下它的周围环境。做出决定时使用常识推理。例如,“桌子上的盘子和杯子等餐具接下来很可能会进入晾衣架”。将“我饿了”等模棱两可的高级请求转化为一些适合上下文的行为,例如“递给对方一个苹果”。用简单的英语描述*为什么*它会执行特定的操作。例如,“这是我可以从桌子上为您提供的唯一可食用的物品”。而模型能力的强大,使其还能够拥有短期记忆,比如视频中展示的“你能把它们放在那里吗?”“它们”指的是什么?“那里”又在哪里?正确回答需要反思记忆的能力。而具体的双手动作,可以分成两步来理解:首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划。如视频中展示的:Figure 的人形机器人快速形成了两个计划:1)将杯子放在碗碟架上,2)将盘子放在碗碟架上。其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速“设定点(setpoint)”,供更高速率的全身控制器跟踪。全身控制器确保安全、稳定的动力,如保持平衡。所有行为均由神经网络视觉运动 Transformer 策略驱动,将像素直接映射到动作。02.从 ChatGPT 到 Sora,再到机器人,OpenAI 想包揽“智能”这件事2021 年夏天,OpenAI 悄悄关闭了其机器人团队,当时,OpenAI 曾宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,导致研发受到阻碍。但显然,OpenAI 并没有放下对这个领域的关注。2023 年 3 月,正在一年前,极客公园报道了 OpenAI 投资了来自挪威的机器人制造商 1X Technologies。其副总裁正是我在文初提到的,认为具身智能将会突然到来的 Eric Jang。而无独有偶,1X Technologies 的技术方向,也是端到端的神经网络对于机器人的控制。而今年 3 月初,OpenAI 和其他投资人一起,参与了 Figure 的 B 轮融资,使其成立两年,就达到了 26 亿美金估值。也正是在这一轮融资之后,OpenAI 宣布了与 Figure 的合作。Figure 的创始人 Brett Adcock,是个“擅长组局”的连续创业者,整个职业生涯中创立过至少 7 家公司,其中一家以 27 亿美元的估值上市,一家被 1.1 亿美元的价格收购。创建公司后,他招募到了研究科学家 Jerry Pratt 担任首席技术官,前波士顿动力/苹果工程师 Michael Rose 担任机器人控制主管。此次进行分享的 AI 团队负责人 Corey Lynch,则原本是 Google Deepmind 的 AI 研究员。Figure 宣布自己在电机、固件、热量、电子产品、中间件操作系统、电池系统、执行器传感器、机械与结构方面,都招募了硬核的设计人才。公司的确进展很快。在与 OpenAI 合作之前,已经做出了不少成绩。2024 年 1 月,Figure 01(Figure 的第一款人形机器人) 学会了做咖啡,公司称,这背后引入了端到端神经网络,机器人学会自己纠正错误,训练时长为 10 小时。Figure 01 引入 AI 学会做咖啡2 月,公司对外展示 Figure 01 的最新进展,在视频里,这个机器人已经学会搬箱子,并运送到传送带上,但速度只有人类的 16.7%。甚至在商业化上,也已经迈出了第一步:Figure 宣布与宝马制造公司签署商业协议,将 AI 和机器人技术整合到汽车生产中,部署在宝马位于南卡罗来纳州斯巴达堡的制造工厂。而在今天的视频展示推文中,Figure 宣布其目标是训练一个世界模型,最终能够卖出十亿个级别的模型驱动的人形机器人。不过,尽管OpenAI与 Figure的合作进展顺畅,但看起来 OpenAI 并未把宝压在一家机器人公司。北京时间 3 月 13 日,来自Google研究团队、加州大学伯克利分校、斯坦福大学教授等一群研究者新成立的一家机器人 AI 公司 Physical Intelligence,被彭博社爆料也拿到了 OpenAI 的融资。毫无意外,该公司,也是研究未来能够成为通用机器人系统的人工智能。多头下注机器人领域,13 天合作做出领先的机器人大模型,OpenAI 在机器人领域意图为何,引人关注。智能人形机器人,未来不止看马斯克的了。 ... PC版: 手机版:

封面图片

Figure与OpenAI合作13天 AI机器人惊艳面世 能对话、能思考、会学习

Figure与OpenAI合作13天 AI机器人惊艳面世 能对话、能思考、会学习 Figure3月初宣布,其已从亚马逊创始人贝索斯、英伟达、OpenAI和微软等巨头那里筹集了约6.75亿美元的资金,使其公司估值达到了26亿美元。首个OpenAI机器人来了!在Figure发布的视频里显示,机器人Figure 01可以听懂人类的命令和提问,动作流畅且有逻辑地递给人类苹果、将垃圾收拾进框子里、将杯子和盘子归置放在沥水架上。而最重点的是,Figure 01的很多举动和回答是根据提问者的一些开放性问题和要求,基于逻辑思考而得出的这意味着它能对话、能思考、能学习,比一般的机器人更“像人”。视频开头强调,这个机器人的行为都是基于语音的逻辑推理,使用端对端神经网络,且视频全程1倍速,没有经过加速。接下来,正片开始,提问者开始在视频中给Figure 01提出多个问题和要求,且难度越来越高。当一开始被问到“Figure 01,你现在能看到什么?”时,Figure 01给出了准确的回答:“我看到一个桌子中间有个红苹果,一个沥水篮和一些杯子和盘子,还有你站在桌子旁,手放在桌子上。”提问者接着问道:“我有什么能吃的吗?”Figure 01动作流畅地把红苹果递给了提问者。接下来,提问者往桌上倒了几个黑色塑料袋团,并给出了更高难度的要求:“你能一边解释你刚刚为什么这么做,一边把垃圾收起来吗?”Figure 01继续做出了完美的反应:他一边动作流畅地将塑料袋团收到篮子里,一边回答道:“我刚刚给了你个苹果,因为这是桌子上唯一能吃的东西。”接着提问者给出了更开放性的问题:“你看看你现在面前的场景,你觉得你面前的盘子该去哪?”Figure 01基于人类常识作出了回答:“盘子和杯子可能该放在沥水篮里。”然后在提问者的下一句要求“那你把它们能放到那边去吗?”后,准确的将杯子和盘子放进了沥水篮。值得注意的是,提问者提出的“那你能把它们放到那边去吗(Can you put them there)?”并没有准确的提出“杯子”“盘子”和“沥水篮”等关键词,而是只用代称,这表明Figure 01有联系上下文思考和记忆的能力。提问者最后让Figure 01对自己的表现给出评价:“你觉得自己做得怎么样?”Figure 01回答:“我觉得我做得很好。苹果找到了新主人,垃圾都被扔掉了,餐具也放到了该放的地方。”OpenAI所提供的超强大脑尽管视频只有短短2分钟,但其包含的信息量却巨大:这个名为Figure 01的机器人已经可以完全与人类流畅对话,理解人类的自然语言指令和意图并进行动作,同时解释原因。它甚至可以对自身行为做出主观的评价。这在这背后提供支持的,就是OpenAI所提供的“大脑”。就在3月1日,,Figure才刚刚宣布将与OpenAI合作,开发下一代人形机器人的人工智能(AI)模型。Figure将基于OpenAI最新的GPT模型开发AI模型,并专门训练Figure收集的机器人动作数据,以便其人形机器人可以与人交谈,看到东西并执行复杂任务。而才刚刚过去13天,这个具备人工智能的人形机器人便火速面世并惊艳科技圈AI模型的成长速度真的令人震撼。在视频发布后,创建Figure 01的高级AI工程师(也是视频中出镜的提问人)科里·林奇(Corey Lynch)对Figure 01的表现作出了更多的解释。“我们的机器人可以描述它的视觉体验,计划未来的行动,反思它的记忆,并口头解释它的推理,”他在X上写道。根据林奇的说法,他们从机器人的摄像头中输入图像,并将车载麦克风捕获的语音文本转录到OpenAI训练的大型多模式模型中。林奇强调,Figure 01的行为都是通过学习而习得的,绝不是远程控制。根据官网介绍,Figure 01机器人身高5英尺6英寸(约1.67米),体重60公斤,可载重20公斤,续航5小时,前进速度1.2米/秒。在OpenAI的技术支持下,Figure 01仅用13天就能完成这样令人惊艳的学习和思考能力。这不禁让人期待,在未来,更加“聪明”的机器人恐怕会比我们想象的更早到来。 ... PC版: 手机版:

封面图片

机器人技术迎来ChatGPT时刻?初创公司Figure发布了一段视频:Figure-01通过观察人类制作咖啡,10小

机器人技术迎来ChatGPT时刻?机器人初创公司Figure发布了一段视频:Figure-01机器人通过观察人类制作咖啡,10小时内学会了制作咖啡的技能。机器人通过神经网络来处理和分析视频数据。通过观看如何制作咖啡的录像。学习人类的动作和手势,然后模仿这些动作来学习制作咖啡的过程,无需通过编程,机器人自主学习技能。 #抽屉IT

封面图片

OpenAI 重启机器人团队,联合多方回归老赛道

OpenAI 重启机器人团队,联合多方回归老赛道 随着对人工智能机器人投资的升温,OpenAI 正式重启其先前放弃的机器人团队,OpenAI 随后确认了这一消息。 OpenAI 成立初期,机器人技术就是其主攻方向之一,联合创始人沃伊切赫・扎伦巴领导的团队最初试图打造一个“通用机器人”。 2019 年,十多位 OpenAI 研究人员联合发表了一篇论文,描述了他们如何训练神经网络使用单只机械手复原魔方,并声称这是朝着训练机器人系统执行各种日常任务迈出的基础性一步。但在 2020 年 10 月,OpenAI 放弃了这一努力,扎伦巴将此归咎于缺乏训练数据。 过去的一年里,OpenAI 的内部创业基金投资了几家公司,这些公司试图开发人形机器人,其中包括 Figure AI、1X Technologies 和 Physical Intelligence。来源 , 频道:@kejiqu 群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人