【2000亿次开放学习后,DeepMind的智能体成精了】他们专门给智能体打造了一个包含了数十亿游戏任务的“元宇宙”XLand。

【2000亿次开放学习后,DeepMind的智能体成精了】他们专门给智能体打造了一个包含了数十亿游戏任务的“元宇宙”XLand。一些基于RL的智能体已表现出明显的零样本学习能力 (0-shot),比如使用工具、打拦(ridge-fencing)、“捉迷藏”、找立方体、数数、合作或竞争等。 #抽屉IT

相关推荐

封面图片

DeepMind 推出“足球运动员”智能体机器人

DeepMind 推出“足球运动员”智能体机器人 Google DeepMind 研发的具身智能体(agent)微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等,并且可以在现实环境中进行对抗。使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超期望。智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。该研究以4月封面文章的形式已发表在 Science Robotics 上,题为“利用深度强化学习让双足机器人掌握敏捷足球技能”。 视频中左侧为具有学习能力的机器人,右侧是作为参照以脚本编程的机器人。 ,

封面图片

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通 如今,由 Google DeepMind 研发的具身智能体(agent)一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。 据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了181%,转身速度快了302%,(跌倒后)起身时间缩短了63%,踢球速度快了34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题,以封面文章的形式已发表在 Science 子刊 Science Robotics 上。“足球智能体”是如何踢球的?创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deep RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。如今,高质量的四足腿式机器人已经广泛应用,并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能(如带球、射门、截球或接球),以及用腿进行简单的操纵。然而,另一方面,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。现有的基于学习的工作更加有限,主要集中在学习和转移独特的基本技能,如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制,从而限制了该方法的通用性。在这项研究中,为使机器人能够执行长期任务,Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上(如下图)。图|机器人足球环境。Google DeepMind 团队创建了匹配的模拟(左)和真实(右)足球环境。球场长 5 米,宽 4 米,在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统,用于跟踪两个机器人和足球。(来源:该论文)据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。图|智能体训练设置。分为两个阶段:在技能训练阶段(左),分别训练了足球技能和起身技能;在提炼和自我发挥阶段(右),将这两种技能提炼成一个既能从地上站起来又能踢足球的个体;第二阶段也包含了自我博弈:从早期训练中保存的策略快照中随机抽取对手。(来源:该论文)结果发现,与从头开始训练智能体进行完整的 1v1 足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。其中一个例子就是新出现的“转身行为”,即机器人用脚的一角做支点并旋转,这对脚本设计来说具有挑战性,但它的表现却优于较为保守的基线。并排比较学习行为和脚本行为。(来源:Tuomas Haarnoja)此外,这一学习方法可以发现针对特定比赛情况进行优化的行为。例如,与情景相关的敏捷技能,如踢移动的球;新出现的战术,如巧妙的防守跑动模式;以及适应比赛情况的步法,如在接近持球者时与追逐无球对手时相比,步法更短。而且,智能体学会了对足球和对手做出预测,根据比赛环境调整动作,并在较长的时间尺度内协调动作,从而最终完成进球。不足与展望研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如:1)领域特定知识和随机化:研究中的学习流程依赖于一些特定领域的知识和领域随机化,这是机器人学习文献中常见的做法。例如,奖励函数设计和起立技能的训练都需要手动选择正确的技能状态,这可能对更动态的平台来说难以实现或不切实际。2)未利用真实数据进行迁移:研究方法完全依赖于模拟到真实的迁移,而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果,并使得行为更加稳定多样。3)未考虑更大尺寸机器人:研究应用在小型机器人上,并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进,例如,对于更大尺寸的机器人,可能需要考虑更多的动态和稳定性问题。4)性能随时间退化:机器人的性能会随时间快速退化,主要是因为髋关节变松或关节位置编码器校准失误。因此,需要定期进行机器人维护。5)自我博弈设置的不稳定性:在某些情况下,自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性,并带来更好的多智能体性能。6)奖励项的权重调整:研究中使用了多个辅助奖励项,其中一些是为了改善迁移(例如,直立奖励和膝盖扭矩惩罚),一些是为了更好的探索(例如,前进速度)。通过加权平均这些不同项作为训练奖励,并通过对超参数的广泛搜索进行调整。然而,多目标强化学习或约束强化学习可能能够获得更好的解决方案。在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的 2v2 足球实验中,研究团队观察到智能体学会了劳动分工,这是一种简单的合作形式:如果队友更接近球,那么智能体就不会接近球。然而,这种方法也导致智能体表现出了更少的敏捷行为。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。与可以直接获取球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息,并随着时间的推移整合部分状态信息,这大大增加了问题的难度。目前,研究团队已经研究了如何训练仅使用机载 RGB 相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染,并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。 ... PC版: 手机版:

封面图片

配备人工智能的立方体卫星可以帮助加强早期野火和灾难应对工作

配备人工智能的立方体卫星可以帮助加强早期野火和灾难应对工作 立方体卫星将在卫星上处理复杂的图像,从而能够更快地从太空探测火灾。图片来源:SmartSatCRC 编辑遥感和计算机科学研究人员克服了在体积更小、成本效益更高的立方体卫星上处理和压缩大量高光谱图像的局限性,然后再将其发送到地面进行分析,从而节省了宝贵的时间和能源。这项利用人工智能实现的突破意味着,丛林大火甚至在其形成并产生大量热量之前,就能从太空中被提前探测到,从而使现场工作人员能够更快地做出反应,防止生命和财产损失。由智能卫星研究中心(SmartSat CRC)资助、南澳大利亚大学(UniSA)领导的一个项目利用最先进的星载人工智能技术,为南澳大利亚的第一颗立方体卫星Kanyini开发了一种节能型早期火灾烟雾探测系统。Kanyini 任务由南澳大利亚政府、SmartSat CRC 和行业合作伙伴合作完成,旨在向低地球轨道发射一颗 6 U 立方体卫星,以探测丛林火灾并监测内陆和沿海水质。卫星传感器配备了高光谱成像仪,可捕捉地球上不同波长的反射光,生成详细的地表地图,用于丛林火灾监测、水质评估和土地管理等各种应用。首席研究员、UniSA 地理空间科学家 Stefan Peters 博士说,传统上,地球观测卫星不具备机载处理能力,无法实时分析从太空捕捉到的复杂地球图像。他的团队成员包括来自澳大利亚南澳大学、斯威本科技大学和澳大利亚地球科学组织的科学家,他们通过建立一个轻量级人工智能模型克服了这一难题,该模型能够在立方体卫星可用的板载处理、功耗和数据存储限制条件下探测烟雾。与基于地面处理高光谱卫星图像来探测火灾相比,机载人工智能模型将下行数据量减少到原来的 16%,而能耗却降低了 69%。机载人工智能模型检测火灾烟雾的速度也比传统的地面处理快 500 倍。Peters 博士说:"在火变得足够热、足够大到传感器可以识别之前,烟雾通常是你能从太空中看到的第一件东西,因此早期探测至关重要。"为了展示人工智能模型,他们使用了最近澳大利亚丛林大火的模拟卫星图像,利用机器学习训练模型检测图像中的烟雾。对于大多数传感器系统来说,收集到的数据中只有一小部分包含与任务目的相关的关键信息。由于无法在大型卫星上处理数据,所有数据都要通过下行链路传送到地面进行分析,从而占用了大量空间和能源。研究人员通过训练模型来区分烟雾和云层,从而更快、更高效地解决了这个问题。以库朗(Coorong)过去发生的火灾事件为案例,模拟的 Kanyini 人工智能机载方法只用了不到 14 分钟就探测到了烟雾,并将数据发送到了南极地面站。彼得斯博士说:"这项研究表明,与传统的地面处理相比,机载人工智能具有显著的优势。这不仅在发生丛林火灾时非常有价值,而且还可以作为其他自然灾害的预警系统。"研究小组希望在 2025 年"卡尼尼"飞行任务投入运行时,在轨道上演示机载人工智能火灾探测系统。"一旦我们解决了任何问题,我们希望将这项技术商业化,并将其应用于立方体卫星星座,争取在一小时内为早期火灾探测做出贡献"。研究人员在最新一期《电气和电子工程师学会应用地球和遥感选题期刊》(IEEE Journal of Selected Topics in Applied Earth and Remote Sensing)上发表了他们的实验细节。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

谷歌通用AI智能体发布 3D游戏玩法要变天了

谷歌通用AI智能体发布 3D游戏玩法要变天了 比如,在《模拟山羊3》(Goat Simulator 3)中当司机开开车:在《幸福工厂》(Satisfactory)中挖矿石:在《瓦尔海姆》(Valheim)中寻找水源:在《无人深空》中(No Man’s Sky)驾驶宇宙飞船射击小行星收集资源:……SIMA全称Scalable Instructable Multiworld Agent,顾名思义可扩展、可指导、多世界。之前,GoogleDeepMind在AI+游戏方面也做过许多工作,比如推出能和人类玩家打PK、会玩《星际争霸II》的AlphaStar系统。而SIMA被DeepMind称作是一个“新的里程碑”,主打从适用单一游戏转向通用多种游戏,且可遵循语言指令。SIMA一公开,网友们也是讨论热烈。让它们替我完成无聊繁琐的任务,这样我就可以直接做有趣的部分,而不必花几个小时培育chocobos获取随机召唤。嗯…《最终幻想》(Final Fantasy)玩家无疑了。专业《模拟山羊》玩家在此刻也懵了:最近这一连串的AI进展也是整的网友们措不及防,直呼“慢一点”:10秒内完成的简单任务接下来再来看一波SIMA的表现。为了让SIMA接触到更多游戏环境,开发团队表示目前已与八家游戏工作室合作,在九款不同的视频游戏上训练和测试了SIMA。当前的SIMA已在600个基本技能上进行了评估。基本操作、交互、使用菜单都会:简单的任务,10秒内可完成。各种场景都能适应:除此外,GoogleDeepMind还发布了一份技术报告,一起来看看里面都有啥。未见过的游戏也会玩SIMA的整体架构是将预训练视觉模型与自监督学习的Transformer相结合。从用户那里接收语言指令,并从环境中获取图像观察结果,然后将它们映射为键盘和鼠标动作。具体架构如下图:开发人员收集了一个既包括精选研究环境又包括商业视频游戏的大型多样化游戏数据集。此外,他们还用Unity创建的一个新环境,名为“the Construction Lab”。在这个环境中,智能体需要使用积木构建雕塑,这考验了它们对物体的操纵能力和对物理世界的理解。数据收集包含多种方法,比如让不同成对的人类玩家的互动,其中一名玩家观察并指导另一名玩家,以此来捕获语言指令;让玩家自由玩游戏,观察他们的操作,并记录下可能导致其游戏行为的指令。通过在不同的游戏世界中学习,SIMA能够将语言与游戏行为相结合。不需要访问游戏源代码,也不需要定制API,仅需要两个输入:屏幕上的图像和用户提供的简单的自然语言指令。然后SIMA就会使用键盘和鼠标输出来控制游戏角色以执行这些指令,这一操作与人类类似,也就意味着SIMA有潜力与任何虚拟环境互动。在评估测试中,研究人员表示SIMA在九个3D游戏集上接受训练,表现显著优于仅在单个游戏上专门训练的智能体。而且SIMA在未训练过的游戏中的表现和专门使用该游戏数据集训练过的智能体表现一样好。也就是说,SIMA在全新环境中具备泛化能力。此外测试结果还显示,SIMA的性能依赖于语言。在一个控制测试中,智能体没有接受任何语言训练或指令,它就会出现无目的的操作,不遵循指令。而且,和人类玩家相比较,SIMA水平还是差一点。 ... PC版: 手机版:

封面图片

杨易教你提高记忆力描述:专门为儿童提供的三维学习力训练,通过体智能训练、学习力训练、沙盘游戏、全脑脑波训练、超级学习法、家长学堂

杨易教你提高记忆力 描述:专门为儿童提供的三维学习力训练,通过体智能训练、学习力训练、沙盘游戏、全脑脑波训练、超级学习法、家长学堂等课程,运用个性化教育方案,充分发挥孩子的学习优势,大幅提升记忆效率。 链接:https://pan.quark.cn/s/aabd95442eff 大小:12.8GB 标签:#通识 #记忆训练 #课程 #杨易教你提高记忆力 #quark 频道:@yunpanshare 群组:@yunpangroup

封面图片

人工智能分析类型题光谱数据 帮助发现百余种罕见的宇宙中性碳吸收体

人工智能分析类型题光谱数据 帮助发现百余种罕见的宇宙中性碳吸收体 地面上的斯隆数字巡天望远镜捕捉到了大量来自早期宇宙的类星体光谱。经过训练的人工智能深度神经网络首次在这些类星体光谱数据中发现了由早期星系冷介质产生的创纪录的弱中性碳吸收线探测器。最近,研究人员利用深度学习神经网络在斯隆数字巡天III(SDSS-III)计划发布的类星体光谱数据中搜索罕见的弱信号。通过引入一种探索星系形成和演化的新方法,研究小组展示了人工智能(AI)在识别天文大数据中罕见弱信号方面的潜力。这项研究最近发表在《英国皇家天文学会月刊》(Monthly Notices of the Royal Astronomical Society)上,由中国科学院上海天文台葛健教授领导的国际团队完成。来自宇宙中带有尘埃的冷气体的"中性碳吸收线"是研究星系形成和演化的重要探测器。然而,中性碳吸收线的信号很弱,而且极其罕见。天文学家一直在努力使用传统的相关方法在大质量类星体光谱数据集中探测这些吸收线。"这就像大海捞针。"葛健教授说。2015年,在SDSS早先发布的数万颗类星体光谱中发现了66个中性碳吸收体,这是获得的样本数量最多的一次。在这项研究中,葛教授团队根据实际观测数据,设计并训练了大量模拟中性碳吸收线样本的深度神经网络。通过将这些训练有素的神经网络应用于SDSS-III数据,研究小组发现了107个极其罕见的中性碳吸收体,比2015年获得的样本数量翻了一番,并探测到了比以前更多的微弱信号。通过堆叠众多中性碳吸收体的光谱,研究小组大大提高了探测各种元素丰度的能力,并直接测量了尘埃造成的气体中金属损失。研究结果表明,这些含有中性碳吸收器探测器的早期星系经历了快速的物理和化学演化,当时宇宙的年龄只有大约30亿年(目前宇宙的年龄为138亿年)。这些星系正在进入大麦哲伦云(LMC)和银河系(MW)之间的演化状态,产生了大量金属,其中一些金属结合成尘埃粒子,导致了观测到的尘埃变红效应。这一发现独立地证实了詹姆斯-韦伯太空望远镜(JWST)最近的发现,该望远镜在宇宙中最早的恒星中探测到了类似钻石的碳尘,这表明一些星系的演化速度比以前预期的要快得多,对现有的星系形成和演化模型提出了挑战。与通过星系发射光谱进行研究的 JWST 不同,这项研究通过观测类星体的吸收光谱来研究早期星系。应用训练有素的神经网络来寻找中性碳吸收体,为未来研究宇宙和星系的早期演化提供了新的工具,是对 JWST 研究方法的补充。"有必要开发创新的人工智能算法,能够快速、准确、全面地探索海量天文数据中的罕见微弱信号。"葛教授说。团队的目标是将这项研究中引入的方法推广到图像识别中,通过提取多种相关结构来创建人工"多结构"图像,从而实现对微弱图像信号的高效训练和检测。编译来源:ScitechDaily ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人