DeepMind 的深度强化学习足球机器人

DeepMind 的深度强化学习足球机器人 在 MuJoCo 物理引擎中进行模拟训练,再转移进真实机器人。可以无缝做出抢断、起身、踢球和追球动作,还对比赛有了基本的战略理解,学习预测球的运动和阻挡对手的射门。

相关推荐

封面图片

DeepMind 推出“足球运动员”智能体机器人

DeepMind 推出“足球运动员”智能体机器人 Google DeepMind 研发的具身智能体(agent)微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等,并且可以在现实环境中进行对抗。使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超期望。智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。该研究以4月封面文章的形式已发表在 Science Robotics 上,题为“利用深度强化学习让双足机器人掌握敏捷足球技能”。 视频中左侧为具有学习能力的机器人,右侧是作为参照以脚本编程的机器人。 ,

封面图片

Deepmind 收购的知名物理引擎 ,未来将用于机器人、生物学、图形动画、机器学习等领域,帮助开发者提升产品开发体验。

Deepmind 收购的知名物理引擎 ,未来将用于机器人、生物学、图形动画、机器学习等领域,帮助开发者提升产品开发体验。 2022 年,Deepmind 将陆续把源码开放至 GitHub。目前,MuJoCo 的文档、API 头文件、程序示例代码,已更新至 GitHub

封面图片

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明

谷歌 DeepMind 正在使用 Gemini 来训练机器人使其变得更聪明 谷歌正在使用 Gemini AI 训练其机器人,以便它们能够更好地导航和完成任务,DeepMind 机器人团队在一篇新的研究论文中解释了如何使用 Gemini 1.5 Pro 的长上下文窗口,让用户可以使用自然语言指令更轻松地与其 RT-2 机器人进行交互。 其工作原理是拍摄指定区域的视频,研究人员使用 Gemini 1.5 Pro 让机器人“观看”视频以了解环境,然后机器人可以根据情况执行命令。 DeepMind 表示其 Gemini 驱动的机器人在超过 50 个任务中的成功率高达 90%。研究人员还发现“初步证据”表明,Gemini 使其机器人能够计划如何执行导航以外的指令,例如,当办公桌上有很多可乐罐的用户询问机器人“是否有他们最喜欢的饮料”时,Gemini 就会知道“机器人应该导航到冰箱,检查是否有可乐,然后返回给用户报告结果。”DeepMind 表示计划进一步调查这些结果。 ,

封面图片

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通 如今,由 Google DeepMind 研发的具身智能体(agent)一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。 据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了181%,转身速度快了302%,(跌倒后)起身时间缩短了63%,踢球速度快了34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题,以封面文章的形式已发表在 Science 子刊 Science Robotics 上。“足球智能体”是如何踢球的?创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deep RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。如今,高质量的四足腿式机器人已经广泛应用,并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能(如带球、射门、截球或接球),以及用腿进行简单的操纵。然而,另一方面,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。现有的基于学习的工作更加有限,主要集中在学习和转移独特的基本技能,如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制,从而限制了该方法的通用性。在这项研究中,为使机器人能够执行长期任务,Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上(如下图)。图|机器人足球环境。Google DeepMind 团队创建了匹配的模拟(左)和真实(右)足球环境。球场长 5 米,宽 4 米,在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统,用于跟踪两个机器人和足球。(来源:该论文)据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。图|智能体训练设置。分为两个阶段:在技能训练阶段(左),分别训练了足球技能和起身技能;在提炼和自我发挥阶段(右),将这两种技能提炼成一个既能从地上站起来又能踢足球的个体;第二阶段也包含了自我博弈:从早期训练中保存的策略快照中随机抽取对手。(来源:该论文)结果发现,与从头开始训练智能体进行完整的 1v1 足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。其中一个例子就是新出现的“转身行为”,即机器人用脚的一角做支点并旋转,这对脚本设计来说具有挑战性,但它的表现却优于较为保守的基线。并排比较学习行为和脚本行为。(来源:Tuomas Haarnoja)此外,这一学习方法可以发现针对特定比赛情况进行优化的行为。例如,与情景相关的敏捷技能,如踢移动的球;新出现的战术,如巧妙的防守跑动模式;以及适应比赛情况的步法,如在接近持球者时与追逐无球对手时相比,步法更短。而且,智能体学会了对足球和对手做出预测,根据比赛环境调整动作,并在较长的时间尺度内协调动作,从而最终完成进球。不足与展望研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如:1)领域特定知识和随机化:研究中的学习流程依赖于一些特定领域的知识和领域随机化,这是机器人学习文献中常见的做法。例如,奖励函数设计和起立技能的训练都需要手动选择正确的技能状态,这可能对更动态的平台来说难以实现或不切实际。2)未利用真实数据进行迁移:研究方法完全依赖于模拟到真实的迁移,而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果,并使得行为更加稳定多样。3)未考虑更大尺寸机器人:研究应用在小型机器人上,并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进,例如,对于更大尺寸的机器人,可能需要考虑更多的动态和稳定性问题。4)性能随时间退化:机器人的性能会随时间快速退化,主要是因为髋关节变松或关节位置编码器校准失误。因此,需要定期进行机器人维护。5)自我博弈设置的不稳定性:在某些情况下,自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性,并带来更好的多智能体性能。6)奖励项的权重调整:研究中使用了多个辅助奖励项,其中一些是为了改善迁移(例如,直立奖励和膝盖扭矩惩罚),一些是为了更好的探索(例如,前进速度)。通过加权平均这些不同项作为训练奖励,并通过对超参数的广泛搜索进行调整。然而,多目标强化学习或约束强化学习可能能够获得更好的解决方案。在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的 2v2 足球实验中,研究团队观察到智能体学会了劳动分工,这是一种简单的合作形式:如果队友更接近球,那么智能体就不会接近球。然而,这种方法也导致智能体表现出了更少的敏捷行为。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。与可以直接获取球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息,并随着时间的推移整合部分状态信息,这大大增加了问题的难度。目前,研究团队已经研究了如何训练仅使用机载 RGB 相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染,并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。 ... PC版: 手机版:

封面图片

OpenAI出品的的深度强化学习教程

OpenAI出品的的深度强化学习教程 强化学习 (RL) 是一种机器学习方法,用于教导agent如何通过反复试验来解决任务。 Deep RL是指RL与深度学习的结合。 ​​​ | #教程 #机器学习

封面图片

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原理见评) 该方法可以处理大量的数据,并且可以从人类的示范中学习。这意味着,如果有一个人类专家展示如何完成任务,Q-Transformer可以从这些示范中学习。 Q-Transformer 可以应用于各种需要决策学习的领域,如机器人控制、游戏策略优化、金融决策等。 |

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人