是一款开源 Python 软件,用于实现离线强化学习(离线 RL)的端到端流程,从数据收集到离线策略学习、离策略性能评估和策略选

是一款开源 Python 软件,用于实现离线强化学习(离线 RL)的端到端流程,从数据收集到离线策略学习、离策略性能评估和策略选择。软件包括一系列模块,用于实现合成数据集生成、数据集预处理、离策略评估 (OPE) 和离策略选择 (OPS) 方法的估计器。 该软件还与d3rlpy兼容,后者实现了一系列在线和离线 RL 方法。SCOPE-RL 通过OpenAI Gym和类似Gymnasium 的界面,可以在任何环境中进行简单、透明且可靠的离线 RL 研究实验。它还有助于在各种定制数据集和真实数据集的实践中实现离线强化学习。 特别是,SCOPE-RL 能够并促进与以下研究主题相关的评估和算法比较: 离线强化学习:离线强化学习旨在仅从行为策略收集的离线记录数据中学习新策略。SCOPE-RL 使用通过各种行为策略和环境收集的定制数据集来实现灵活的实验。 离线策略评估:OPE 旨在仅使用离线记录的数据来评估反事实策略的性能。SCOPE-RL 支持许多 OPE 估计器,并简化了评估和比较 OPE 估计器的实验程序。此外,我们还实现了先进的 OPE 方法,例如基于状态动作密度估计和累积分布估计的估计器。 离线策略选择:OPS 旨在使用离线记录的数据从多个候选策略池中识别性能最佳的策略。SCOPE-RL 支持一些基本的 OPS 方法,并提供多种指标来评估 OPS 的准确性。

相关推荐

封面图片

OpenAI出品的的深度强化学习教程

OpenAI出品的的深度强化学习教程 强化学习 (RL) 是一种机器学习方法,用于教导agent如何通过反复试验来解决任务。 Deep RL是指RL与深度学习的结合。 ​​​ | #教程 #机器学习

封面图片

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架,旨在训练人形机器人的运动技能,强调从模拟到现实

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架,旨在训练人形机器人的运动技能,强调从模拟到现实环境的零样本迁移。Humanoid-Gym还集成了从Isaac Gym到Mujoco的sim-to-sim框架,允许用户在不同的物理模拟中验证训练好的策略,以确保策略的鲁棒性和泛化性。 该代码库由 RobotEra 的 XBot-S(1.2 米高的人形机器人)和 XBot-L(1.65 米高的人形机器人)在现实环境中进行了验证,具有零样本模拟到真实的传输。 | #框架

封面图片

:产品级的强化学习AI智能体库,旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体,Pearl具有模块

:产品级的强化学习AI智能体库,旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体,Pearl具有模块化设计,提供了许多独特的功能,如动态动作空间、离线学习、智能神经探索、安全决策等,支持实际应用领域,包括推荐系统、拍卖竞标系统和创意选择。与其他库相比,Pearl具有更高的灵活性和可扩展性

封面图片

系统化学习直通车精准投放课

系统化学习直通车精准投放课 描述:系统化学习直通车投放课,针对数字营销领域,涵盖精准广告投放策略、数据分析与优化等内容。课程通过案例分析和实操指导,帮助学员掌握精准投放的关键技能,提升数字营销效果。建议先收藏保存,不定时失效。 链接:https://pan.quark.cn/s/c8e128524baa 大小:NG 标签:#quark #学习 #资源 #课程 #直通车 频道:@yunpanshare 群组:@yunpangroup

封面图片

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原

Q-Transformer :DeepMind开发的一种新的强化学习方法,它的目标是从大量的数据中学习如何完成多种任务。(工作原理见评) 该方法可以处理大量的数据,并且可以从人类的示范中学习。这意味着,如果有一个人类专家展示如何完成任务,Q-Transformer可以从这些示范中学习。 Q-Transformer 可以应用于各种需要决策学习的领域,如机器人控制、游戏策略优化、金融决策等。 |

封面图片

是一个用 Python 编写的开源 #框架 ,用于量化(又名监督流行率估计,或学习量化)。

是一个用 Python 编写的开源 #框架 ,用于量化(又名监督流行率估计,或学习量化)。 QuaPy 基于“数据样本”的概念,提供量化工作流最重要方面的实现,例如(基线和高级)量化方法、面向量化的模型选择机制、评估措施和评估协议用于评估量化方法。QuaPy 还提供常用数据集,并提供可视化工具以促进实验结果的分析和解释

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人