儿童牙科训练用机器人

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。英伟达科学家，也是此次共同作者之一JimFan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构，外循环运行GPT-4来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。主要有三个关键组成部分：模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习，可以快速评估大量候选奖励。奖励反射rewardreflection，得益于GPT-4评估和修改能力，一步步迭代。首先，无需任何特定提示工程和奖励模版。使用原始IsaacGym（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成，但由IsaacGym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。最后，依赖于奖励反射，Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。甚至在少数情况下，AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略，人类看不懂学不会，但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是，近半数研究人员都是华人。一作是YechengJasonMa，目前是宾大GRASP实验室的四年级博士生，研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳，不过至于网友提到的弹钢琴，JimFan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）...PC版：https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版：https://m.cnbeta.com.tw/view/1391745.htm

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上#抽屉IT

开群机器人|飞单机器人|算账机器人|娱乐机器人

💎 免费机器人 | TG最强 | 恒聚财 x 教你用机器人省下数十万

免费机器人 | TG最强 | 恒聚财 x 教你用机器人省下数十万

飞单机器人#开群机器人#挂机跟投机器人 28机器人

丰田正在 "机器人幼儿园"制造AI训练的早餐

丰田正在"机器人幼儿园"制造AI训练的早餐机器人研究人员说，触觉是"一个关键的推动因素"。通过让机器人伸出你在下面视频中看到的枕头般的大拇指（我的说法，不是他们的），模型就能"感觉"到自己在做什么，从而获得更多信息。这就使困难的任务比单靠视觉更容易完成。实验室灵巧操作部经理本-伯奇菲尔（BenBurchfiel）说，"看到它们与环境互动，令人激动"。首先，"老师"演示一套技能，然后"在几个小时内"，模型在后台学习。他补充说："我们经常在下午教一个机器人，让它学习一夜，然后在第二天早上就可以看到它的新行为"。研究人员说，他们正试图为机器人创建"大型行为模型"（LargeBehaviorModels），或称LBM。麻省理工学院机器人学教授、TRI公司机器人研究副总裁拉斯-泰德雷克（RussTedrake）说："与通过记录人类书写模式来训练LLM类似，丰田的LBM将通过观察来学习，然后"泛化，执行一项它们从未被教授过的新技能"。研究人员说，利用这一过程，他们已经训练了60多种具有挑战性的技能，如"倒液体、使用工具和操纵可变形物体"。他们希望到2024年底将这一数字提高到1000。Google和特斯拉也一直在对其RoboticTransformerRT-2进行类似的研究。与丰田公司研究人员的方法类似，他们的机器人也是利用自己的经验来推断如何做事。从理论上讲，经过人工智能训练的机器人最终可以在几乎没有任何指令的情况下执行任务，而只需要给人类一个大致的指示（比如"清理溢出物"）。但正如《纽约时报》在报道这家搜索巨头的研究时所指出的那样，Google的机器人至少还有很长的路要走。这种工作通常是"缓慢和劳动密集型的"，提供足够的训练数据比向人工智能模型提供大量从互联网上下载的数据要难得多。...PC版：https://www.cnbeta.com.tw/articles/soft/1385067.htm手机版：https://m.cnbeta.com.tw/view/1385067.htm