SCOPE-RL是一款开源 Python 软件，用于实现离线强化学习（离线 RL）的端到端流程，从数据收集到离线策略学习、离策略

是一款开源Python软件，用于实现离线强化学习（离线RL）的端到端流程，从数据收集到离线策略学习、离策略性能评估和策略选择。软件包括一系列模块，用于实现合成数据集生成、数据集预处理、离策略评估(OPE)和离策略选择(OPS)方法的估计器。该软件还与d3rlpy兼容，后者实现了一系列在线和离线RL方法。SCOPE-RL通过OpenAIGym和类似Gymnasium的界面，可以在任何环境中进行简单、透明且可靠的离线RL研究实验。它还有助于在各种定制数据集和真实数据集的实践中实现离线强化学习。特别是，SCOPE-RL能够并促进与以下研究主题相关的评估和算法比较：离线强化学习：离线强化学习旨在仅从行为策略收集的离线记录数据中学习新策略。SCOPE-RL使用通过各种行为策略和环境收集的定制数据集来实现灵活的实验。离线策略评估：OPE旨在仅使用离线记录的数据来评估反事实策略的性能。SCOPE-RL支持许多OPE估计器，并简化了评估和比较OPE估计器的实验程序。此外，我们还实现了先进的OPE方法，例如基于状态动作密度估计和累积分布估计的估计器。离线策略选择：OPS旨在使用离线记录的数据从多个候选策略池中识别性能最佳的策略。SCOPE-RL支持一些基本的OPS方法，并提供多种指标来评估OPS的准确性。

在Telegram中查看

相关推荐

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架，旨在训练人形机器人的运动技能，强调从模拟到现实

一个基于NvidiaIsaacGym的易于使用的强化学习(RL)框架，旨在训练人形机器人的运动技能，强调从模拟到现实环境的零样本迁移。Humanoid-Gym还集成了从IsaacGym到Mujoco的sim-to-sim框架，允许用户在不同的物理模拟中验证训练好的策略，以确保策略的鲁棒性和泛化性。该代码库由RobotEra的XBot-S（1.2米高的人形机器人）和XBot-L（1.65米高的人形机器人）在现实环境中进行了验证，具有零样本模拟到真实的传输。#框架

Q-Transformer ：DeepMind开发的一种新的强化学习方法，它的目标是从大量的数据中学习如何完成多种任务。（工作原

Q-Transformer：DeepMind开发的一种新的强化学习方法，它的目标是从大量的数据中学习如何完成多种任务。（工作原理见评）该方法可以处理大量的数据，并且可以从人类的示范中学习。这意味着，如果有一个人类专家展示如何完成任务，Q-Transformer可以从这些示范中学习。Q-Transformer可以应用于各种需要决策学习的领域，如机器人控制、游戏策略优化、金融决策等。

《0基础Python趣味AI项目紧跟趋势、趣味Al、强化编程能力》

名称：《0基础Python趣味AI项目紧跟趋势、趣味Al、强化编程能力》描述：1_ChatGLM微调本地知识库.mp42_YoloV8训练自定义数据集.mp43追踪车辆计数实战项目.mp44_SegmentAnything测量面积.mp45强化学习玩游戏.mp46_Stablediffusion文生图推理、训练.mp47_Human-RelD跨镜头智能寻人系统.mp48_BEV乌瞰图.mp49_1_快速搞定Python/库和环境，节省80%踩坑时间.mp410_2_5个Python知识点，新手村地图全开.mp411_3_1张猫咪图，理解图像本质.mp412_4_3组例子，用OpenCV玩转图像和视频.mp413_5_Python面向对象编程.mp4链接：https://www.alipan.com/s/NyBVHizMzT6大小：6.45GB标签：#AI#编程#教程来自：雷锋版权：频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手

用GPT-4训练机器人英伟达最新Agent开源：任务越复杂越拿手尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。英伟达科学家，也是此次共同作者之一JimFan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。目前该项目完全开源。GPT-4生成奖励策略在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。研究人员提出了一种混合梯度架构，外循环运行GPT-4来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。主要有三个关键组成部分：模拟器环境代码作为上下文启动初始“种子”奖励函数。GPU上的大规模并行强化学习，可以快速评估大量候选奖励。奖励反射rewardreflection，得益于GPT-4评估和修改能力，一步步迭代。首先，无需任何特定提示工程和奖励模版。使用原始IsaacGym（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。以往这种过程需要几天甚至几周来完成，但由IsaacGym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。最后，依赖于奖励反射，Eureka还支持一种新形式的上下文RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。甚至在少数情况下，AI的策略与人类的策略呈现负相关。这就有点像当年AlphaGo的下棋策略，人类看不懂学不会，但十分有效。英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。可以看到的是，近半数研究人员都是华人。一作是YechengJasonMa，目前是宾大GRASP实验室的四年级博士生，研究方向是强化学习和机器人学习。英伟达科学家JimFan此次也是通讯作者之一。咳咳，不过至于网友提到的弹钢琴，JimFan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）...PC版：https://www.cnbeta.com.tw/articles/soft/1391745.htm手机版：https://m.cnbeta.com.tw/view/1391745.htm

腾讯AI登顶国际麻将平台：10.68段遥遥领先

腾讯AI登顶国际麻将平台：10.68段遥遥领先官方表示，这代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。据介绍，“天凤”是知名日本麻将竞技平台，拥有较为体系化的竞技规则和专业段位规则，全世界的麻将AI基本都在这里进行训练和打段。“段位”类似于《王者荣耀》，天凤按照1段—11段来进行排位，10段就相当于《王者荣耀》的荣耀王者段位。腾讯表示，由于麻将除了正常的摸牌、打牌外，还要决定是否吃牌、碰牌、杠牌以及是否胡牌，任意一位玩家的行为都会改变摸牌的顺序，涉及大量决策。传统离线策略训练方法、传统的在线搜索算法对麻将来说并不完全适用，于是腾讯AILab提出了ACH（actorcritichedge）的新型策略优化算法。据了解，该算法采用了基于强化学习和遗憾值最小化的自我博弈技术，使AI能从零开始自我学习和提高。该算法具备传统强化学习可扩展性好（算的快）的优点，又部分继承了遗憾值最小化算法的一些理论性质（算的好），相比传统的强化学习方法，该策略优化算法在非完美信息游戏中训练得到的策略更平衡（攻守兼备）。另外，不同于过去搜索与离线策略的结合方式，腾讯将搜索返回的结果作为一种“特征”输入到自研的策略神经网络，使得AI在有海量隐藏信息的游戏状态中，仍可以实时调整当前策略。腾讯称，训练麻将AI，其实就是在训练AI更好地去认识人类的世界，最终让AI能早日走进那些人类生活中，如金融交易、自动驾驶、交通物流、拍卖系统等，解决真实世界的复杂问题。...PC版：https://www.cnbeta.com.tw/articles/soft/1370213.htm手机版：https://m.cnbeta.com.tw/view/1370213.htm

机器学习开启了有机化学研究的预测能力

机器学习开启了有机化学研究的预测能力有机化学即对碳基分子的研究，不仅是生物体科学的基础，而且对许多当前和未来的技术至关重要，如有机发光二极管（OLED）显示器。了解一种材料分子的电子结构是预测该材料化学特性的关键。在东京大学工业科学研究所的研究人员最近发表的一项研究中，开发了一种机器学习算法来预测有机分子内的状态密度，即电子在材料分子内的基态所能占据的能级数量。这些基于光谱数据的预测对有机化学家和材料科学家分析碳基分子时有很大帮助。东京大学工业科学研究所的研究人员使用人工智能来帮助解释材料科学光谱实验产生的数据，这可以帮助开发新的药物和有机导体。资料来源：东京大学工业科学研究所通常用来寻找状态密度的实验技术可能很难解释。被称为核心损失光谱的方法尤其如此，它结合了能量损失近边缘光谱（ELNES）和X射线吸收近边缘结构（XANES）。这些方法在材料样品上照射一束电子或X射线；由此产生的电子散射和对材料分子发射的能量的测量使得感兴趣的分子的状态密度可以被测量。然而，光谱所具有的信息只是在激发分子的电子缺失（未被占据）状态。为了解决这个问题，东京大学工业科学研究所的团队训练了一个神经网络机器学习模型来分析核心损耗光谱数据并预测电子状态的密度。首先，通过计算超过22000个分子的状态密度和相应的核损光谱，构建了一个数据库。他们还添加了一些模拟的噪声。然后，在核损光谱上对该算法进行了训练，并对其进行了优化，以预测基态下占位和非占位状态的正确密度。"我们试图用一个由较小分子训练的模型来推断对较大分子的预测。我们发现通过排除微小的分子可以提高准确性，"主要作者Po-YenChen解释说。该团队还发现，通过使用平滑预处理和向数据添加特定的噪声，可以改善对状态密度的预测，这可以加速预测模型在真实数据上的应用。高级作者TeruyasuMizoguchi说："我们的工作可以帮助研究人员了解分子的材料特性，并加速功能分子的设计。这可以包括药品和其他令人兴奋的化合物。"...PC版：https://www.cnbeta.com.tw/articles/soft/1360317.htm手机版：https://m.cnbeta.com.tw/view/1360317.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人