今年 OnBoard! 最后一期压轴上新!今年要谈论AI,怎么能错过这么一个重要的话题: 具身智能。

今年 OnBoard! 最后一期压轴上新!今年要谈论AI,怎么能错过这么一个重要的话题: 具身智能。 这一轮热潮中,从学术到工业落地,如何分别噪音与真实? 这次的嘉宾阵容,真是太适合回答这些问题了:Google DeepMind Robotics 的 Fei Xia,几个最重磅的研究的核心参与者。高仙机器人的深度学习总监 Jiaxin, UCSD做模拟环境相关的研究的Fanbo Xiang。 我们对AI泛化能力在机器人领域的落地的进展、挑战、未来,进行了深入的讨论,来自研究和产业界不同观点的碰撞,精彩纷呈。 其实这一期的录制已经过去了几个月,阴差阳错成了今年的压轴,也算是对于OnBoard 全年的一个圆满句号,又是整个旅程小小的逗号。新的一年,不论世界如何起落,我们都选择相信未来有希望,珍惜每一次对话,赞美每一个在未知中选择的勇士。

相关推荐

封面图片

#人型 #机器人 #投资 #具身智能

#人型 #机器人 #投资 #具身智能 现在大家都在看人型机器人和具身智能,但都没搞明白投资具身机器人到底是投资什么。 现在我们看到大部分的投资,讲的故事都是说五年内会有居家性的机器人卖到消费者手上,但如果我们看现在实际的案例和学术理论这种假设是基本上没法成立的。 现在机器人技术上能解决的比较好的,就是1)如何在不同的环境能够维持平衡并且行动,这个包括轮式,双足、四足;2)还有就是不同自由度的机器臂进行预定好的,提前设置的,提前规划的移动。这种技术已经非常成熟了,所以在工业场景进行简单的搬运、组装、上下料,这个完全没有任何问题。 但是如果要进行在居家环境里面进行稍微比分拣不同东西更复杂的操作的话,现在还没有任何模型能够胜任。甚至现在去进行这些复杂动作的数积集和模型框架都不成熟。 现在generative人工智能之所以这么火,是因为在学术界有两个很大的突破,一个是attention is all you need (transformer), 另一个是latent diffusion。那大家可以想一想,在机器人和现实世界的互动中,就现在的理论知识去解决这个问题够吗? 这个突破还没出现。 那投资人实际应该去投资的是什么呢?答案是5年前类似openai的公司,openai在过去五年期间我一直关注,大家可能忘了,他们做了很多理论的突破,都没有寻求变现,而是去验证模型本身的可行性。我第一次关注到他们是在游戏里面,他们用强化学习模型打赢了星际争霸的韩国冠军。这个没有进行任何变现的技术突破,在后来的GPT 3.5模型的收敛和人工矫正aligment效果上面是有趣大贡献的,就是大家现在所谓的RLHF。第二次关注到他们是基因序列模型,Alpha fold,这个在医疗领域,当时是轰轰烈烈的大突破,但他们也没有将它进行直接变现。第三次关注到他们是GPT3语言大模型的发布,但这个模型出来后,他们也没有进行变现。我想说的是,学术领域的突破到实际应用的落地是需要接受很长一段时间的没有任何变现的(没有任何收入的)积累。

封面图片

just 具身智能和一个做人型机器人/具身智能的朋友交流了一下

just 具身智能 和一个做人型机器人/具身智能的朋友交流了一下 【四足小狗的意义】 像逐际动力、宇树科技这一类四足机器人企业,所面临的主要场景是电厂巡检。 我提出的问题是,如果单纯想目前pr中显示的,上几个楼梯,为什么不用导轨+摄像头+边缘盒子的方案? 主要的核心在于两点, 1.使用了巡检机器人,则工地的布置,行走检修的路线可以获得比较高的灵活度,而不是工厂一直就只能是那个装修和布局。 2.机器人的路线可以有差别,从而实现摄像机的不同视角,从而达到更好的拍摄密度,实现更精密的巡检。 【解耦+轮足一体】 其实机器人也可以和汽车一样实现上下解耦,包括研发线上也是,上半身执行器研究和下半身移动平台研究。理论上来讲,上半身基本是仿人的双执行器。而下半身其实是比较值得考究的。 双足的问题就在于仿真和控制效率不高,从而导致功耗较大,但优势在于一些复杂路况的翻越。但是大部分情况下没有这么复杂的路况。而轮胎型其实是功耗比较低的方案,比如北欧的机器人NEO。 因此,可以做一款轮足一体的移动平台。轮子放在小腿靠膝盖的地方,在不需要双足驱动的时候把轮子放下来变成轮子底盘。 【具身智能的难点-高水平电机,高性能线性执行器】 目前主要的难点还是聚焦于两块,一个是高性能线性执行器的设计,这一块类似于人类肌肉、关节形成一个锁定三角从而在人类负载的时候不需要持续做功。 另一个就是高性能的电机,主要还是在于瞬时最高扭矩无法达到。从而无法实现一些动作。除非通过一些外接的气动/液压等技术,才能做到一个瞬时释放能量。超级电容器也是一种思路,但是会比较大的损伤电机,就类似于目前电动汽车里轴承的电蚀现象 包括这种问题也会反应在执行速度上,指令可以很快,1000hz,但是执行会很慢(类似于你才踏板到汽车启动的一个过程,会有比较大的实质),得到反馈倒不慢,rl能到10-100hz 【具身智能的难点】 中国5G的基础建设还在进行中,5G基站覆盖面积短衰变大,而具身智能其实需要比较高的5G传输才能实现大模型和具身智能的交互。一旦有信号波动很有可能在执行层面实现误差。 因为边缘盒子最多承载几B的模型,而不是几百B的大模型。 这个可能是阻碍具身智能实现从B到C比较大的问题。换句话说目前具身智能,只有身,没有具。

封面图片

机器人“疯狂的一年”拉开序幕:基础模型、通用具身智能指日可待?

机器人“疯狂的一年”拉开序幕:机器人基础模型、通用具身智能指日可待? 在这次采访中,被问到“眼下正在发生哪些你认为将改变一些的事情”时,这位“地球上最重要股票”的掌门人表示,“有几件事。其中之一没有真正的名字,但它是我们在基础机器人领域做的一些工作。如果你可以生成文本、生成图像,你也可以生成运动吗?答案可能是可以。那么,如果你可以生成动作,你就可以理解意图并生成通用版本。因此,人形机器人技术指日可待。”在采访发布的同日,英伟达高级研究科学家Jim Fan宣布,将与Yuke Zhu携手在英伟达组建一个研究小组GEAR,全称Generalist Embodied Agent Research,意为“通用具身智能体研究”。他认为,未来每一台移动的机器都将是自主的,机器人与模拟智能体将和iPhone一样无处不在。“我们正在打造基础智能体:一个具备通用能力的AI,其能在虚拟与现实的多个世界中学习如何熟练行动。2024年将是机器人之年、游戏AI之年、模拟之年。”此外,英伟达、贝索斯等将投资人形机器人公司Figure AI,以期为AI寻找新应用。Figure AI此前曾得到OpenAI和微软支持,其将在一轮融资中筹集约6.75亿美元,交易前估值约为20亿美元。贝索斯通过旗下Explore Investments LLC承诺投资1亿美元,微软将投资9500万美元,英伟达和一个亚马逊附属的基金将各提供5000万美元。Figure AI年初凭借一条人形机器人煮咖啡的视频火爆全网,该机器人使用端到端的AI系统,仅通过观察人类煮咖啡,即可在10小时内完成训练。之后,该公司宣布,旗下机器人入驻宝马汽车工厂。英伟达这边动作不断,马斯克则在当地时间2月24日分享了特斯拉人形机器人Optimus(擎天柱)的最新视频。视频中,Optimus的步态更加稳健,行走体态也更接近人类;改变行进方向时极为顺滑,没有僵硬的机械感,且转向的同时并未停止前进。Optimus机器人工程师Milan Kovac介绍,这是Optimus有史以来最快的步态,速度约为 0.6 米/秒,与12月发布的视频相比,速度提高了30%。“我们改进了前庭系统、脚部轨迹和地面接触逻辑;升级了运动规划器,并缩短了整个机器人的环路延迟。Optimus整体行走稳定性和自信程度上都有所提升,即使在转弯时也表现优异。我们还增加了轻微的躯干和手臂摇摆。”机器人+AI“疯狂的一年” 券商建议关注四条主线“未来几周将会有3-4条重大新闻发布,这些消息将震撼机器人+人工智能领域。调整你的时间表,这将是疯狂的2024年。”谷歌DeepMind研究科学家Ted Xiao在当地时间2月22日如此预告。机器人板块春节后强势反弹,中信证券研报指出,主因为特斯拉人形机器人产业链进度预期改善、AI巨头点燃机器人技术创新之火、政策端及厂商端持续利好更新,此外流动性问题缓解也为板块反弹提供了条件。产业发展进度在AI加持下将大大加快。板块反弹处于初始阶段,2024年将是人形机器人快速发展的一年。在产业链进度预期改善、巨头技术突破、新品发布和迭代、政策落地等因素的催化下,分析师看好机器人产业发展和板块回暖,建议关注以下四条主线:1)人形机器人核心高确定性公司;2)与英伟达合作的机器人标的;3)业绩预期较好,具备估值安全垫的标的;4)超跌及强概念股。 ... PC版: 手机版:

封面图片

今年的机器人开发者大会论坛感受下来,国产具身智能企业各有特点,十分有意思

今年的机器人开发者大会论坛感受下来,国产具身智能企业各有特点,十分有意思 1. 傅里叶智能,CEO顾捷饱含情怀,十几年如一日摸索落地形态与场景,最新人形机器人小批量量产100台 2. 智元机器人,头顶天才少年光环万众瞩目,成立一年多以来还是在本体和机械层面优化中,且看沿途下蛋会交付什么出来吧 3. 银河通用,十分接近我对AGI的想法,合成数据训练小模型GPT的大模型,操作加学习清晰明了,不愧是BAAI合作单位 4. 达闼机器人,搞了套机器人OS,机器人技术表现很一般,未来就卖操作系统?听说是最有可能先上市的机器人公司 5. 科大讯飞,像PPT路演的,一直营销自家的多模态。有模型有智能硬件,离机器人有多远?

封面图片

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相

华为云发布盘古具身智能大模型:“夸父”人形机器人亮相 据介绍,盘古大模型能够让机器人完成10步以上的复杂任务规划,并且在任务执行中实现多场景泛化和多任务处理。同时盘古大模型还能生成机器人需要的训练视频,让机器人更快地学习各种复杂场景。大模型的多模态能力以及思维能力的快速提升,使机器人能够模拟人类常识进行逻辑推理,并在现实环境中高效精准地执行任务,从而有效解决了复杂环境感知与物理空间认知的难题。通过集成多场景泛化和多任务处理能力,不论是生活场景还是工业场景,都能游刃有余的应对。大会现场展示中,“夸父”可以通过识别物品、问答互动、击掌、递水等互动演示,直观展示了双方基于盘古大模型的合作成果。通过模仿学习策略显著提升了人形机器人的双臂操作能力,实现了软硬件层面的协同优化,不仅增强了机器人综合性能,还克服了小样本数据训练的局限性,推动了泛化操作能力的边界。张平安在大会上表示,除了人形机器人,盘古具身智能大模型还可以赋能多种形态的工业机器人和服务机器人,让它们帮助人类去从事危险和繁重的工作。具身智能大模型可以让机器人作用更加广泛,未来真正实现让AI机器人帮助我们去洗衣、做饭、扫地,让我们有更多的时间去看书,写诗,作画。 ... PC版: 手机版:

封面图片

用于机器人学习和具身AI领域研究的模块化框架

用于机器人学习和具身AI领域研究的模块化框架 RoboHive 生态系统包含一系列预先存在的和新颖的环境,包括 Shadow Hand 的灵巧操纵、Franka 和 Fetch 机器人的全臂操纵任务以及各种四足运动任务。 与之前的作品相比,RoboHive 提供了精简且统一的任务界面,利用最新的模拟绑定,具有丰富的视觉多样性任务,并支持现实世界开发的通用硬件驱动程序。 RoboHive 的统一界面为研究人员提供了一个方便且易于访问的平台来研究多种学习范式,例如模仿、强化、多任务和分层学习。 RoboHive 还包括大多数环境的专家演示和基线结果,为基准测试和比较提供了标准。 特征: 最广泛、多样化的任务集合 完全可定制的视觉丰富的任务,专为行为泛化而设计。 奖励不可知的任务成功指标 支持多种算法系列+预训练基线 Sim 和硬件无关的机器人类,可在 sim <> real 之间轻松转换 远程操作支持。人类+专家数据集 | #框架

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人