DeepMind 发布Dreamer V3,第一个从头开始在 Minecraft 中收集钻石的通用算法 - 解决人工智能中的一个

DeepMind 发布Dreamer V3,第一个从头开始在 Minecraft 中收集钻石的通用算法 - 解决人工智能中的一个重要挑战。 它学会了在不调整的情况下掌握许多领域,使强化学习得到广泛应用。

相关推荐

封面图片

这个有意思,第一个能在 Minecraft 中与你亲自互动的 AI Agent。演示视频翻译为中文了。

这个有意思,第一个能在 Minecraft 中与你亲自互动的 AI Agent。演示视频翻译为中文了。 以前AI 控制的非玩家角色(NPC)主要只能进行简单的行走和对话。 Altera bots 不仅能够建造、聊天,还能进行团队合作,就跟一个正常的游戏内好友一样跟你一起玩。 这里申请体验:

封面图片

Deepmind 推出了一个可以自我改进的AI机器人代理:

Deepmind 推出了一个可以自我改进的AI机器人代理: 它能自我学习并在不同的机械臂上执行各种任务,而且还能自我生成新的训练数据以改进其技术。 RoboCat的学习速度非常快。只需要观察100次左右的演示,就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。 RoboCat的一些主要特点: 1、多任务和自适应能力:RoboCat是第一个能够解决和适应多个任务,并在不同的真实机器人上执行这些任务的代理。 2、快速学习:RoboCat的学习速度比其他最先进的模型快得多。它可以通过观察少至100个示例来学习新任务,因为它从大型多样化的数据集中获取信息。这将有助于加速机器人研究,因为它减少了对人工监督训练的需求,这是创建通用机器人的重要步骤。 3、自我改进:RoboCat基于Deepmind的多模型模型Gato,它可以在模拟和物理环境中处理语言、图像和动作。将Gato的架构与大型训练数据集结合起来,该数据集包含了各种机器人臂解决数百种不同任务的图像和动作序列。 4、操作新的机器人臂和解决更复杂的任务:通过RoboCat的多样化训练,它在几个小时内学会了操作不同的机器人臂。虽然它已经在两爪夹具的臂上进行了训练,但它能够适应更复杂的臂,这种臂有三个手指的夹具和两倍的可控输入。 5、自我改进的通才:RoboCat有一个训练的良性循环:它学习的新任务越多,它在学习其他新任务上就越好。最初版本的RoboCat在以前未见过的任务上的成功率只有36%,这是在每个任务上从500个示例中学习后的结果。但是最新的RoboCat,在对更多任务进行了训练后,将这个成功率提高了一倍多。

封面图片

最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享:

最近因为一个契机,我从头开始参与基础大模型的训练开发。亲身经历去实践这个过程令我兴奋,也让我学到很多。有一些心得体会可以分享: 1. 人们常说GPT模型学习了整个互联网的数据,听上去只要能够把整个互联网爬下来就可以了,这个说法并不准确。训练的原始数据的确是来自互联网(CommonCrawl和私域的内容),但是实际拿来训练用的只是其中的子集一个精心挑选的高质量子集。Sam Altman和Lex Friedman的访谈中说过,他们在数据上的大部分努力是去筛选信息,而不是堆积信息。原始数据需要经过大量的筛选、去重、格式化的处理,这个过程耗时耗力,也往往被忽视,但却是至关重要的。 2. 随着模型的参数上到百亿甚至千亿,很多新的能力开始涌现,而很多工程上的麻烦也随之而来。为了应对如此庞大的数据和模型体量,系统里几乎每个角落都需要优化,从数据处理、切分、训练时的样本和机器分布、梯度下降的稳定性、存储等等,各个方面都需要对应做提升,避免成为短板。一个成功的大模型背后离不开几十上百个细节的工程优化。 3. 一个还不成熟、有待考验的心得:现在想要做一个LLM,你并不需要一支庞大的团队。你只需要不到10个有经验、有行动力、能够高效合作的工程师就可以了。Meta、OpenAI、HuggingFace等团队都为这个生态提供了非常实用的轮子,只要使用得当,就可以获得明显的助力。当然,人数上可以精简,GPU计算资源还是得管够。

封面图片

(原创)在姐姐的新房,做的第一个男人(下)本贴售价:12.00钻石

(原创)在姐姐的新房,做姐姐的第一个男人(下)本贴售价:12.00钻石 #狂插肥穴 #巨乳姐姐 #逼逼忍不住要喷水 #爆乳、肥臀、骚B 楼主:丰乳肥臀的姐姐Lv 4 时间:2024-12-26 20:58:59 兄弟们,忙了这么长时间,今天总算是爽了一把了好长时间没有做爱了,今天也算是吧攒了这么多天的子弹全部射给姐姐了,射了好多姐姐这几天也一直在问我,说她回来这么久了也不主动找她我哪是不想去嘛,是真的一点时间都没有今天难得下了一个早班,第一件事就是问姐姐在哪,说我去找她刚好姐姐告诉我,她在她的新房哪里收拾东西呢我直接马不停蹄的就去姐姐的新房了到了新房一看,焕然一新啊,这几天姐姐回来了吧家里窗帘啊家具家居啥的,都添置的差不多了就连床单被套什么的都置办齐全了就在我去的刚才,姐姐吧床都铺好了我今天去的时机可以说是恰到好处,一切都刚刚好姐夫还没睡过的新房我已经睡过了,还跟姐姐大战了一场,哈哈不光这样,姐夫还没睡到的新床单,不光被我睡了我还吧姐姐弄得喷水,喷的床单上都是 走的时候姐姐还怪我呢,前几天刚洗好的床单,今天又要再洗一遍过几天又要再来铺上,麻烦死了哈哈,也不知道姐夫要是知道姐姐再他的新房里面,姐姐叫我用力干的时候是种什么样的体验。不得不说,姐姐最近的口活真的会了不少,一双灵活的小舌头舔得我差点都直接射出来了,今天真的是爽啊好久没有这样的感觉了等我这段时间忙完了,我要天天再姐姐的新房干姐姐要让姐姐下不来床 #丰乳肥臀的姐姐 最新作品没看过的兄弟可以从头观看 前序传送门]() 完整版31分04秒入会免费看]() #国产 #海角 #黑料 欢迎广大网友投稿 本群负责人:@beijixing4 更多资源群:@sousuoresoudaohan

封面图片

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通

DeepMind推出具身智能“足球运动员” 过人、射门、防守样样精通 如今,由 Google DeepMind 研发的具身智能体(agent)一个微型人形机器人,不仅可以快速“奔跑”“过人”“进攻”,还可以阅读比赛,正确预测足球移动方向,以及阻挡对手射门等。 据介绍,在实验中,与对比基线相比,该机器人奔跑速度快了181%,转身速度快了302%,(跌倒后)起身时间缩短了63%,踢球速度快了34%,同时也能有效地将各种技能结合起来,远远超出了人们此前对机器人的固有认知。相关研究论文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”为题,以封面文章的形式已发表在 Science 子刊 Science Robotics 上。“足球智能体”是如何踢球的?创建通用具身智能,即创建能够像动物或人类一样在物理世界中敏捷、灵巧和理解地行动的智能体,是人工智能(AI)和机器人领域长期以来共同追求的目标。深度强化学习(deep RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。如今,高质量的四足腿式机器人已经广泛应用,并被用来展示从稳健和敏捷的移动到跌倒恢复、攀爬、基本的足球技能(如带球、射门、截球或接球),以及用腿进行简单的操纵。然而,另一方面,对于人形机器人和双足机器人的控制,投入的工作要少得多,这些机器人对稳定性、机器人安全性、自由度数量和适用硬件的可用性提出了额外的挑战。现有的基于学习的工作更加有限,主要集中在学习和转移独特的基本技能,如行走、跑步、爬楼梯和跳跃。人形控制领域的新技术使用有针对性的基于模型的预测控制,从而限制了该方法的通用性。在这项研究中,为使机器人能够执行长期任务,Google DeepMind 团队讨论了基于学习的人形机器人全身控制。特别是,他们使用深度强化学习训练低成本的现成机器人踢多机器人足球,机器人在训练后展现出的敏捷性和流畅性远超人们的期望。他们专注于从本体感受和运动捕捉观察中获得的感觉运动全身控制,为此训练了一个智能体在模拟中进行简化的一对一足球,并直接将学习到的策略部署在真实机器人上(如下图)。图|机器人足球环境。Google DeepMind 团队创建了匹配的模拟(左)和真实(右)足球环境。球场长 5 米,宽 4 米,在真实环境中铺有 50 厘米的方形面板。真实环境还配备了一个动作捕捉系统,用于跟踪两个机器人和足球。(来源:该论文)据论文描述,训练流程包括两个阶段。在第一阶段,研究团队训练了两种技能策略:一个是起身站立;另一个是面对未经训练的对手进行射门得分。在第二阶段,通过提炼技能,并使用一种自我博弈形式的多智能体训练,来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体自身的部分训练副本池中抽取的。图|智能体训练设置。分为两个阶段:在技能训练阶段(左),分别训练了足球技能和起身技能;在提炼和自我发挥阶段(右),将这两种技能提炼成一个既能从地上站起来又能踢足球的个体;第二阶段也包含了自我博弈:从早期训练中保存的策略快照中随机抽取对手。(来源:该论文)结果发现,与从头开始训练智能体进行完整的 1v1 足球任务相比,这种两阶段方法可以带来更好的定性行为和改进的模拟到真实的转移。据介绍,训练后的智能体展现了敏捷和动态的运动能力,包括行走、侧移、踢球、摔倒后恢复和与球的互动,并将这些技能流畅、灵活地组合在一起。另外,智能体也涌现出了一些意想不到的策略,这些策略比脚本策略更充分地利用了系统的全部功能,而这些策略可能是人类根本没有想到的。其中一个例子就是新出现的“转身行为”,即机器人用脚的一角做支点并旋转,这对脚本设计来说具有挑战性,但它的表现却优于较为保守的基线。并排比较学习行为和脚本行为。(来源:Tuomas Haarnoja)此外,这一学习方法可以发现针对特定比赛情况进行优化的行为。例如,与情景相关的敏捷技能,如踢移动的球;新出现的战术,如巧妙的防守跑动模式;以及适应比赛情况的步法,如在接近持球者时与追逐无球对手时相比,步法更短。而且,智能体学会了对足球和对手做出预测,根据比赛环境调整动作,并在较长的时间尺度内协调动作,从而最终完成进球。不足与展望研究团队表示,这项工作为在动态多智能体环境中实际使用深度强化学习灵活控制人形机器人迈出了重要一步。然而,该研究还存在一定的局限性,例如:1)领域特定知识和随机化:研究中的学习流程依赖于一些特定领域的知识和领域随机化,这是机器人学习文献中常见的做法。例如,奖励函数设计和起立技能的训练都需要手动选择正确的技能状态,这可能对更动态的平台来说难以实现或不切实际。2)未利用真实数据进行迁移:研究方法完全依赖于模拟到真实的迁移,而不是在训练中结合真实数据。在真实机器人上进行微调或在模拟训练中混合真实数据可能有助于改善迁移效果,并使得行为更加稳定多样。3)未考虑更大尺寸机器人:研究应用在小型机器人上,并未考虑与更大尺寸相关的额外挑战。当前系统可以在多个方面进行改进,例如,对于更大尺寸的机器人,可能需要考虑更多的动态和稳定性问题。4)性能随时间退化:机器人的性能会随时间快速退化,主要是因为髋关节变松或关节位置编码器校准失误。因此,需要定期进行机器人维护。5)自我博弈设置的不稳定性:在某些情况下,自我博弈可能导致学习不稳定。采用基于群体的训练方案可能提高稳定性,并带来更好的多智能体性能。6)奖励项的权重调整:研究中使用了多个辅助奖励项,其中一些是为了改善迁移(例如,直立奖励和膝盖扭矩惩罚),一些是为了更好的探索(例如,前进速度)。通过加权平均这些不同项作为训练奖励,并通过对超参数的广泛搜索进行调整。然而,多目标强化学习或约束强化学习可能能够获得更好的解决方案。在未来的工作中,研究团队提出了两个重点关注的方向。一个令人兴奋的未来工作方向是“多智能体足球”,即训练两个或更多智能体组成的团队。可以直接应用该论文提出的方法来训练这种设置下的智能体。在初步的 2v2 足球实验中,研究团队观察到智能体学会了劳动分工,这是一种简单的合作形式:如果队友更接近球,那么智能体就不会接近球。然而,这种方法也导致智能体表现出了更少的敏捷行为。另一个工作方向为“从原始视觉训练足球”,也就是说,仅使用机载传感器进行学习,而不依赖于运动捕捉系统的外部状态信息。与可以直接获取球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维自我中心相机观测历史记录中推断信息,并随着时间的推移整合部分状态信息,这大大增加了问题的难度。目前,研究团队已经研究了如何训练仅使用机载 RGB 相机和本体感知的视觉智能体。通过神经辐射场模型创建了实验室的视觉渲染,并使机器人学会了包括球的追踪和对手及目标的情境感知在内的行为。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人