DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

DeepMind推出具身智能“足球运动员”过人、射门、防守样样精通如今,由GoogleDeepMind研发的具身智能体(agent)——一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了181%,转身速度快了302%,(跌倒后)起身时间缩短了63%,踢球速度快了34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。相关研究论文以“Learningagilesoccerskillsforabipedalrobotwithdeepreinforcementlearning”为题,以封面文章的形式已发表在Science子刊ScienceRobotics上。“足球智能体”是如何踢球的?创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deepRL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。如今,高质量的四足腿式机器人已经广泛应用,并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能(如带球、射门、截球或接球),以及用腿进行简单的操纵。然而,另一方面,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。现有的基于学习的工作更加有限,主要集中在学习和转移独特的基本技能,如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制,从而限制了该方法的通用性。在这项研究中,为使机器人能够执行长期任务,GoogleDeepMind团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上(如下图)。图机器人足球环境。GoogleDeepMind团队创建了匹配的模拟(左)和真实(右)足球环境。球场长5米,宽4米,在真实环境中铺有50厘米的方形面板。真实环境还配备了一个动作捕捉系统,用于跟踪两个机器人和足球。(来源:该论文)据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的1v1足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。图智能体训练设置。分为两个阶段:在技能训练阶段(左),分别训练了足球技能和起身技能;在提炼和自我发挥阶段(右),将这两种技能提炼成一个既能从地上站起来又能踢足球的个体;第二阶段也包含了自我博弈:从早期训练中保存的策略快照中随机抽取对手。(来源:该论文)结果发现,与从头开始训练智能体进行完整的1v1足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。其中一个例子就是新出现的“转身行为”,即机器人用脚的一角做支点并旋转,这对脚本设计来说具有挑战性,但它的表现却优于较为保守的基线。并排比较学习行为和脚本行为。(来源:TuomasHaarnoja)此外,这一学习方法可以发现针对特定比赛情况进行优化的行为。例如,与情景相关的敏捷技能,如踢移动的球;新出现的战术,如巧妙的防守跑动模式;以及适应比赛情况的步法,如在接近持球者时与追逐无球对手时相比,步法更短。而且,智能体学会了对足球和对手做出预测,根据比赛环境调整动作,并在较长的时间尺度内协调动作,从而最终完成进球。不足与展望研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如:1)领域特定知识和随机化:研究中的学习流程依赖于一些特定领域的知识和领域随机化,这是机器人学习文献中常见的做法。例如,奖励函数设计和起立技能的训练都需要手动选择正确的技能状态,这可能对更动态的平台来说难以实现或不切实际。2)未利用真实数据进行迁移:研究方法完全依赖于模拟到真实的迁移,而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果,并使得行为更加稳定多样。3)未考虑更大尺寸机器人:研究应用在小型机器人上,并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进,例如,对于更大尺寸的机器人,可能需要考虑更多的动态和稳定性问题。4)性能随时间退化:机器人的性能会随时间快速退化,主要是因为髋关节变松或关节位置编码器校准失误。因此,需要定期进行机器人维护。5)自我博弈设置的不稳定性:在某些情况下,自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性,并带来更好的多智能体性能。6)奖励项的权重调整:研究中使用了多个辅助奖励项,其中一些是为了改善迁移(例如,直立奖励和膝盖扭矩惩罚),一些是为了更好的探索(例如,前进速度)。通过加权平均这些不同项作为训练奖励,并通过对超参数的广泛搜索进行调整。然而,多目标强化学习或约束强化学习可能能够获得更好的解决方案。在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的2v2足球实验中,研究团队观察到智能体学会了劳动分工,这是一种简单的合作形式:如果队友更接近球,那么智能体就不会接近球。然而,这种方法也导致智能体表现出了更少的敏捷行为。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。与可以直接获取球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息,并随着时间的推移整合部分状态信息,这大大增加了问题的难度。目前,研究团队已经研究了如何训练仅使用机载RGB相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染,并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。...PC版:https://www.cnbeta.com.tw/articles/soft/1426944.htm手机版:https://m.cnbeta.com.tw/view/1426944.htm

相关推荐

封面图片

DeepMind 推出“足球运动员”智能体机器人

DeepMind推出“足球运动员”智能体机器人GoogleDeepMind研发的具身智能体(agent)微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等,并且可以在现实环境中进行对抗。使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超期望。智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。该研究以4月封面文章的形式已发表在ScienceRobotics上,题为“利用深度强化学习让双足机器人掌握敏捷足球技能”。视频中左侧为具有学习能力的机器人,右侧是作为参照以脚本编程的机器人。——,

封面图片

研究发现咖啡因对足球运动员有帮助但也有消极影响

研究发现咖啡因对足球运动员有帮助但也有消极影响以往的研究发现,咖啡因是世界上最流行的膳食补充剂之一,它能在包括足球在内的间歇性运动中为身体带来益处,但它对运动决策的影响却鲜有研究。现在,英国斯塔福德郡大学和伊朗设拉子大学的研究人员研究了咖啡因对足球运动员传球准确性、解决问题和决策能力的影响。"研究表明,咖啡因可以提高注意力、准确性和速度,以及自我报告的能量和情绪指标,"该研究的通讯作者PooyaSoltani说。"然而,咖啡因对问题解决和决策等'高级'认知功能的影响却经常引起争议,因此我们决定对此进行调查。"研究人员招募了12名16至17岁的男性足球运动员,他们至少有四年在伊朗青年一级联赛踢球的经历。参与者都是咖啡因的中度习惯性使用者,每天摄入量低于100毫克。研究人员给每位参与者服用了每公斤体重3毫克的咖啡因或面粉粉胶囊,并对他们的决策能力、短传(33英尺/10米)和长传(98英尺/30米)准确性以及传球能力进行了评估。虽然这一剂量被认为是咖啡因的低剂量,但以往的研究发现它具有促进运动或提高成绩的作用。传球能力采用拉夫堡足球传球测试(LSPT)进行评估,这是一项多方面的足球专项技能测试,用于评估传球、运球、控制和决策能力。决策能力通过计算机任务进行评估,参与者观看10个足球运动员控球的视频片段,并被要求在视频暂停时确定建立良好进攻方案的最佳选择。与安慰剂相比,摄入咖啡因后,参与者的短传准确率提高了1.67%,长传准确率提高了13.48%。然而,摄入咖啡因后,他们的决策能力降低了7.14%,LSPT分数降低了3.49%。该研究的主要作者NegarJafari说:"虽然几乎所有参与者在摄入咖啡因前后的短传准确率都保持一致,但长传的表现却各不相同。此外,大多数参与者在摄入咖啡因后的决策和拉夫堡足球传球测试中得分较低。这可能表明,在比赛前一小时摄入低剂量咖啡因,可能会对传球次数较多的复杂任务产生负面影响。"研究人员表示,他们的研究结果并不建议足球运动员完全避免摄入咖啡因,而是建议进一步研究咖啡因对比赛中决策的影响。Soltani说:"在足球比赛中,球员必须处理对手位置、球队组织和时间压力等各种线索。传球中的决策尤为重要,一次执行良好的传球可以创造得分机会"。需要考虑的因素很多,但研究提供的数据可能对训练有用。Soltani说:"我们的研究结果表明,[决策]会受到咖啡因摄入量的影响,教练们可能会发现这些性能指标有助于在训练中进行探索。S这可能与一些参数有关--相对于体重的咖啡因剂量、摄入咖啡因的频率以及球员的某些位置或他们的比赛风格。例如,传球准确性的轻微下降可能对中场球员至关重要,但对门将的影响则较小。"这项研究发表在《行为脑研究》杂志上。...PC版:https://www.cnbeta.com.tw/articles/soft/1403843.htm手机版:https://m.cnbeta.com.tw/view/1403843.htm

封面图片

Google DeepMind 公布 Genie 模型,可生成可交互的虚拟环境

GoogleDeepMind公布Genie模型,可生成可交互的虚拟环境GoogleDeepMind今天介绍了Genie,一种根据互联网视频训练的基础世界模型,可以从合成图像、照片甚至草图生成无数种可玩(动作可控)的世界。Genie可以用它以前从未见过的图像来作为输入,使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于2D平台游戏和机器人的视频,但其方法是通用的,并且可以扩展到任何类型的领域和更大的数据集。团队还通过使用Google的RT-1机器人的摄像头视频数据训练模型,表明Genie能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器,以便训练未来的通用智能体。——,

封面图片

【前足球运动员Ronaldinho Gaúcho因缺席加密货币诈骗听证会,获将被武力传唤】

【前足球运动员RonaldinhoGaúcho因缺席加密货币诈骗听证会,获将被武力传唤】2023年08月24日11点38分老不正经报道,前足球运动员RonaldinhoGaúcho原定于本周二(22日)下午2时30分在巴西众议院向议会金融金字塔调查委员会(CPI)作证,但他没有出席。由于RonaldinhoGaúcho缺席,CPI主席、众议员Solidariedade-RJ于本周四(24日)晚些时候召见了这位运动员。除了RonaldinhoGaúcho之外,这位前球员的兄弟兼经纪人RobertodeAssis也应出庭作证。如果他们未能再次出庭,可能会被要求采取强制行为。众议员Solidariedade-RJ表示,我们已将传唤时间再次延长至下周四(24日)上午10点。如果他们不出现,我们将使用武力传唤程序。这位前球员之所以被传唤作证,是因为他与一个加密资产运营平台有业务往来,该平台被检察院指控助长金融传销。CPI正在调查利用加密货币进行的金融传销活动。据证券交易委员会(CVM)称,共有11家公司涉嫌欺诈,如传播虚假信息,承诺高额或保证回报,以吸引受害者并维持金字塔计划。联邦最高法院(STF)法官EdsonFachin做出裁决,向这名前足球运动员颁发了人身保护令,赋予他在向CPI提供证词时保持沉默的权利。尽管如此,根据CPI主席的说法,出席是强制性的。

封面图片

#前埃弗顿足球运动员李铁因操纵比赛和30万英镑的工作贿赂“被判终身监禁”

#前埃弗顿足球运动员李铁因操纵比赛和30万英镑的工作贿赂“被判终身监禁”李铁曾为埃弗顿和谢菲尔德联队效力,然后回到祖国,开始了教练生涯,包括管理中国国家队李是他这一代最有才华的中国球员之一,在2002-03赛季从少年时代辽宁租借的期间,李在埃弗顿出场33次。然后,他以120万英镑的转会协议与太妃糖队永久签约,并在随后的竞选中打了七场比赛,然后在2004年2月的国际执勤中摔断了腿。这位46岁的李承认在担任河北中国财富和后来的武汉Zall的主教练时成功安排了比赛。这家总部位于武汉的球队在2018年作为冠军赢得了中国甲级联赛的升级。周五,李被判处终身监禁,而中国足球协会前主席陈旭源将服刑15年。此外,据报道,现任副总统杜兆才被判处13年徒刑。

封面图片

Google DeepMind 发布视觉语言动作模型 RT-2

GoogleDeepMind发布视觉语言动作模型RT-2GoogleDeepMind今日发布了一种新的AI模型RoboticsTransformer2(RT-2),可以帮助训练机器人理解扔垃圾等任务。在论文中,谷歌介绍RT-2是一种新型视觉语言动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留网络规模能力。例如,可以帮助训练机器人理解扔垃圾等任务。RT-2表明,视觉语言模型(VLM)可以转换为强大的视觉语言动作(VLA)模型,该模型可以通过将VLM预训练与机器人数据相结合来直接控制机器人。RT-2不仅是对现有VLM模型的简单而有效的修改,而且还显示了构建通用物理机器人的前景,该机器人可以推理、解决问题和解释信息,以在现实世界中执行各种任务。论文:https://robotics-transformer2.github.io/assets/rt2.pdf来源:https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人