是一款开源 Python 软件,用于实现离线强化学习(离线 RL)的端到端流程,从数据收集到离线策略学习、离策略性能评估和策略选

是一款开源 Python 软件,用于实现离线强化学习(离线 RL)的端到端流程,从数据收集到离线策略学习、离策略性能评估和策略选择。软件包括一系列模块,用于实现合成数据集生成、数据集预处理、离策略评估 (OPE) 和离策略选择 (OPS) 方法的估计器。 该软件还与d3rlpy兼容,后者实现了一系列在线和离线 RL 方法。SCOPE-RL 通过OpenAI Gym和类似Gymnasium 的界面,可以在任何环境中进行简单、透明且可靠的离线 RL 研究实验。它还有助于在各种定制数据集和真实数据集的实践中实现离线强化学习。 特别是,SCOPE-RL 能够并促进与以下研究主题相关的评估和算法比较: 离线强化学习:离线强化学习旨在仅从行为策略收集的离线记录数据中学习新策略。SCOPE-RL 使用通过各种行为策略和环境收集的定制数据集来实现灵活的实验。 离线策略评估:OPE 旨在仅使用离线记录的数据来评估反事实策略的性能。SCOPE-RL 支持许多 OPE 估计器,并简化了评估和比较 OPE 估计器的实验程序。此外,我们还实现了先进的 OPE 方法,例如基于状态动作密度估计和累积分布估计的估计器。 离线策略选择:OPS 旨在使用离线记录的数据从多个候选策略池中识别性能最佳的策略。SCOPE-RL 支持一些基本的 OPS 方法,并提供多种指标来评估 OPS 的准确性。

相关推荐

封面图片

OpenAI出品的的深度强化学习教程

OpenAI出品的的深度强化学习教程 强化学习 (RL) 是一种机器学习方法,用于教导agent如何通过反复试验来解决任务。 Deep RL是指RL与深度学习的结合。 ​​​ | #教程 #机器学习

封面图片

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架,旨在训练人形机器人的运动技能,强调从模拟到现实

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架,旨在训练人形机器人的运动技能,强调从模拟到现实环境的零样本迁移。Humanoid-Gym还集成了从Isaac Gym到Mujoco的sim-to-sim框架,允许用户在不同的物理模拟中验证训练好的策略,以确保策略的鲁棒性和泛化性。 该代码库由 RobotEra 的 XBot-S(1.2 米高的人形机器人)和 XBot-L(1.65 米高的人形机器人)在现实环境中进行了验证,具有零样本模拟到真实的传输。 | #框架

封面图片

:产品级的强化学习AI智能体库,旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体,Pearl具有模块

:产品级的强化学习AI智能体库,旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体,Pearl具有模块化设计,提供了许多独特的功能,如动态动作空间、离线学习、智能神经探索、安全决策等,支持实际应用领域,包括推荐系统、拍卖竞标系统和创意选择。与其他库相比,Pearl具有更高的灵活性和可扩展性

封面图片

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原理见评) 该方法可以处理大量的数据,并且可以从人类的示范中学习。这意味着,如果有一个人类专家展示如何完成任务,Q-Transformer可以从这些示范中学习。 Q-Transformer 可以应用于各种需要决策学习的领域,如机器人控制、游戏策略优化、金融决策等。 |

封面图片

是一个用 Python 编写的开源 #框架 ,用于量化(又名监督流行率估计,或学习量化)。

是一个用 Python 编写的开源 #框架 ,用于量化(又名监督流行率估计,或学习量化)。 QuaPy 基于“数据样本”的概念,提供量化工作流最重要方面的实现,例如(基线和高级)量化方法、面向量化的模型选择机制、评估措施和评估协议用于评估量化方法。QuaPy 还提供常用数据集,并提供可视化工具以促进实验结果的分析和解释

封面图片

宇树科技 CEO:具身智能是实现 AGI 的最有效途径,AGI 需要实物机器人的交互才能强化学习

宇树科技 CEO:具身智能是实现 AGI 的最有效途径,AGI 需要实物机器人的交互才能强化学习 7 月 4 日,2024 世界人工智能大会,宇树科技 CEO 王兴兴表示:“具身智能是实现 AGI 的最有效途径,OpenAI 的大方向大概率是错的。” 他认为,未来 5-10 年肯定会有很大的技术突破,只有尽可能地相信 AI,才会有更好的未来。王兴兴表示,对于具身智能而言,能够理解时间、空间以及物理规律的世界模型非常重要,“现在的大语言模型等很像活在梦里”,AGI 需要有实物机器人的物理交互才能加深模仿和强化学习,同时也需要参与到人类的生活中,来体验和理解人类的情绪和性格。对于未来发展,王兴兴表示,深度强化学习还可以在全身任意姿态或舞蹈等动作的模仿深度强化学习、复杂地形下的全身任意稳定运动、手部的复杂物品或零部件较复杂的灵巧操作,以及基于图像或深度数据等感知数据的强化学习导航避障等方面取得更大突破。(澎湃新闻记者 秦盛 实习生 张宸玚)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人