DeepMind 发布Dreamer V3,第一个从头开始在 Minecraft 中收集钻石的通用算法 - 解决人工智能中的一个

DeepMind 发布Dreamer V3,第一个从头开始在 Minecraft 中收集钻石的通用算法 - 解决人工智能中的一个重要挑战。 它学会了在不调整的情况下掌握许多领域,使强化学习得到广泛应用。

相关推荐

封面图片

谷歌开门放“狗”:AlphaGo研发部门DeepMind CEO表示其下一个算法将超越 ChatGPT

谷歌开门放“狗”:AlphaGo研发部门DeepMind CEO表示其下一个算法将超越 ChatGPT Demis Hassabis 表示,该公司正在开发一种名为 Gemini 的系统,该系统的技术曾帮助阿尔法狗(AlphaGo)在 2016 年击败人类围棋冠军。 2016年,一个来自谷歌 DeepMind 人工智能实验室的名为阿尔法狗(AlphaGo)的人工智能程序在棋盘游戏围棋中击败了人类冠军选手,创造了历史。现在,DeepMind 联合创始人兼首席执行官 Demis Hassabis 表示,他的工程师正在使用 AlphaGo 的技术来制造一个名为 Gemini 的人工智能系统,该系统将比 OpenAI 的ChatGPT背后的系统更强大。 DeepMind 的 Gemini 仍在开发中,是一种处理文本的大型语言模型,本质上与为ChatGPT 提供支持的 GPT-4类似。但哈萨比斯表示,他的团队将现有技术与 AlphaGo 中使用的技术结合起来,旨在赋予系统新的功能,例如规划或解决问题的能力。 ,

封面图片

这个有意思,第一个能在 Minecraft 中与你亲自互动的 AI Agent。演示视频翻译为中文了。

这个有意思,第一个能在 Minecraft 中与你亲自互动的 AI Agent。演示视频翻译为中文了。 以前AI 控制的非玩家角色(NPC)主要只能进行简单的行走和对话。 Altera bots 不仅能够建造、聊天,还能进行团队合作,就跟一个正常的游戏内好友一样跟你一起玩。 这里申请体验:

封面图片

Deepmind 推出了一个可以自我改进的AI机器人代理:

Deepmind 推出了一个可以自我改进的AI机器人代理: 它能自我学习并在不同的机械臂上执行各种任务,而且还能自我生成新的训练数据以改进其技术。 RoboCat的学习速度非常快。只需要观察100次左右的演示,就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。 RoboCat的一些主要特点: 1、多任务和自适应能力:RoboCat是第一个能够解决和适应多个任务,并在不同的真实机器人上执行这些任务的代理。 2、快速学习:RoboCat的学习速度比其他最先进的模型快得多。它可以通过观察少至100个示例来学习新任务,因为它从大型多样化的数据集中获取信息。这将有助于加速机器人研究,因为它减少了对人工监督训练的需求,这是创建通用机器人的重要步骤。 3、自我改进:RoboCat基于Deepmind的多模型模型Gato,它可以在模拟和物理环境中处理语言、图像和动作。将Gato的架构与大型训练数据集结合起来,该数据集包含了各种机器人臂解决数百种不同任务的图像和动作序列。 4、操作新的机器人臂和解决更复杂的任务:通过RoboCat的多样化训练,它在几个小时内学会了操作不同的机器人臂。虽然它已经在两爪夹具的臂上进行了训练,但它能够适应更复杂的臂,这种臂有三个手指的夹具和两倍的可控输入。 5、自我改进的通才:RoboCat有一个训练的良性循环:它学习的新任务越多,它在学习其他新任务上就越好。最初版本的RoboCat在以前未见过的任务上的成功率只有36%,这是在每个任务上从500个示例中学习后的结果。但是最新的RoboCat,在对更多任务进行了训练后,将这个成功率提高了一倍多。

封面图片

最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享:

最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享: 1. 人们常说GPT模型学习了整个互联网的数据,听上去只要能够把整个互联网爬下来就可以了,这个说法并不准确。训练的原始数据的确是来自互联网(CommonCrawl和私域的内容),但是实际拿来训练用的只是其中的子集一个精心挑选的高质量子集。Sam Altman和Lex Friedman的访谈中说过,他们在数据上的大部分努力是去筛选信息,而不是堆积信息。原始数据需要经过大量的筛选、去重、格式化的处理,这个过程耗时耗力,也往往被忽视,但却是至关重要的。 2. 随着模型的参数上到百亿甚至千亿,很多新的能力开始涌现,而很多工程上的麻烦也随之而来。为了应对如此庞大的数据和模型体量,系统里几乎每个角落都需要优化,从数据处理、切分、训练时的样本和机器分布、梯度下降的稳定性、存储等等,各个方面都需要对应做提升,避免成为短板。一个成功的大模型背后离不开几十上百个细节的工程优化。 3. 一个还不成熟、有待考验的心得:现在想要做一个LLM,你并不需要一支庞大的团队。你只需要不到10个有经验、有行动力、能够高效合作的工程师就可以了。Meta、OpenAI、HuggingFace等团队都为这个生态提供了非常实用的轮子,只要使用得当,就可以获得明显的助力。当然,人数上可以精简,GPU计算资源还是得管够。

封面图片

WORL-015 全世界通用的肢体语言 只需一个翻译就可以找到跑步的健康美女!一个没有男朋友的沮丧金发女人在 3PSEX 中疯狂

WORL-015 全世界通用的肢体语言 只需一个翻译就可以找到跑步的健康美女!一个没有男朋友的沮丧金发女人在 3PSEX 中疯狂并被精液覆盖! 时长: 02:04:12 上市时间: 2024-04-20 #一条真斗 #ししお #美少女 #白人女优 #ナンパ #洋ピン・海外输入 #3P・4P #ハイビジョン #独占配信 #4K #世界共通のBody Language #AVS collector’s #AVSCollector’s WORLD

封面图片

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通 如今,由 Google DeepMind 研发的具身智能体(agent)一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。 据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了181%,转身速度快了302%,(跌倒后)起身时间缩短了63%,踢球速度快了34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题,以封面文章的形式已发表在 Science 子刊 Science Robotics 上。“足球智能体”是如何踢球的?创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deep RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。如今,高质量的四足腿式机器人已经广泛应用,并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能(如带球、射门、截球或接球),以及用腿进行简单的操纵。然而,另一方面,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。现有的基于学习的工作更加有限,主要集中在学习和转移独特的基本技能,如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制,从而限制了该方法的通用性。在这项研究中,为使机器人能够执行长期任务,Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上(如下图)。图|机器人足球环境。Google DeepMind 团队创建了匹配的模拟(左)和真实(右)足球环境。球场长 5 米,宽 4 米,在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统,用于跟踪两个机器人和足球。(来源:该论文)据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。图|智能体训练设置。分为两个阶段:在技能训练阶段(左),分别训练了足球技能和起身技能;在提炼和自我发挥阶段(右),将这两种技能提炼成一个既能从地上站起来又能踢足球的个体;第二阶段也包含了自我博弈:从早期训练中保存的策略快照中随机抽取对手。(来源:该论文)结果发现,与从头开始训练智能体进行完整的 1v1 足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。其中一个例子就是新出现的“转身行为”,即机器人用脚的一角做支点并旋转,这对脚本设计来说具有挑战性,但它的表现却优于较为保守的基线。并排比较学习行为和脚本行为。(来源:Tuomas Haarnoja)此外,这一学习方法可以发现针对特定比赛情况进行优化的行为。例如,与情景相关的敏捷技能,如踢移动的球;新出现的战术,如巧妙的防守跑动模式;以及适应比赛情况的步法,如在接近持球者时与追逐无球对手时相比,步法更短。而且,智能体学会了对足球和对手做出预测,根据比赛环境调整动作,并在较长的时间尺度内协调动作,从而最终完成进球。不足与展望研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如:1)领域特定知识和随机化:研究中的学习流程依赖于一些特定领域的知识和领域随机化,这是机器人学习文献中常见的做法。例如,奖励函数设计和起立技能的训练都需要手动选择正确的技能状态,这可能对更动态的平台来说难以实现或不切实际。2)未利用真实数据进行迁移:研究方法完全依赖于模拟到真实的迁移,而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果,并使得行为更加稳定多样。3)未考虑更大尺寸机器人:研究应用在小型机器人上,并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进,例如,对于更大尺寸的机器人,可能需要考虑更多的动态和稳定性问题。4)性能随时间退化:机器人的性能会随时间快速退化,主要是因为髋关节变松或关节位置编码器校准失误。因此,需要定期进行机器人维护。5)自我博弈设置的不稳定性:在某些情况下,自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性,并带来更好的多智能体性能。6)奖励项的权重调整:研究中使用了多个辅助奖励项,其中一些是为了改善迁移(例如,直立奖励和膝盖扭矩惩罚),一些是为了更好的探索(例如,前进速度)。通过加权平均这些不同项作为训练奖励,并通过对超参数的广泛搜索进行调整。然而,多目标强化学习或约束强化学习可能能够获得更好的解决方案。在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的 2v2 足球实验中,研究团队观察到智能体学会了劳动分工,这是一种简单的合作形式:如果队友更接近球,那么智能体就不会接近球。然而,这种方法也导致智能体表现出了更少的敏捷行为。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。与可以直接获取球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息,并随着时间的推移整合部分状态信息,这大大增加了问题的难度。目前,研究团队已经研究了如何训练仅使用机载 RGB 相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染,并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人