是一款开源 Python 软件，用于实现离线强化学习（离线 RL）的端到端流程，从数据收集到离线策略学习、离策略性能评估和策略选

是一款开源 Python 软件，用于实现离线强化学习（离线 RL）的端到端流程，从数据收集到离线策略学习、离策略性能评估和策略选择。软件包括一系列模块，用于实现合成数据集生成、数据集预处理、离策略评估 (OPE) 和离策略选择 (OPS) 方法的估计器。该软件还与d3rlpy兼容，后者实现了一系列在线和离线 RL 方法。SCOPE-RL 通过OpenAI Gym和类似Gymnasium 的界面，可以在任何环境中进行简单、透明且可靠的离线 RL 研究实验。它还有助于在各种定制数据集和真实数据集的实践中实现离线强化学习。特别是，SCOPE-RL 能够并促进与以下研究主题相关的评估和算法比较：离线强化学习：离线强化学习旨在仅从行为策略收集的离线记录数据中学习新策略。SCOPE-RL 使用通过各种行为策略和环境收集的定制数据集来实现灵活的实验。离线策略评估：OPE 旨在仅使用离线记录的数据来评估反事实策略的性能。SCOPE-RL 支持许多 OPE 估计器，并简化了评估和比较 OPE 估计器的实验程序。此外，我们还实现了先进的 OPE 方法，例如基于状态动作密度估计和累积分布估计的估计器。离线策略选择：OPS 旨在使用离线记录的数据从多个候选策略池中识别性能最佳的策略。SCOPE-RL 支持一些基本的 OPS 方法，并提供多种指标来评估 OPS 的准确性。

在Telegram中查看

相关推荐

OpenAI出品的的深度强化学习教程

OpenAI出品的的深度强化学习教程强化学习 (RL) 是一种机器学习方法，用于教导agent如何通过反复试验来解决任务。 Deep RL是指RL与深度学习的结合。 | #教程 #机器学习

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架，旨在训练人形机器人的运动技能，强调从模拟到现实

一个基于 Nvidia Isaac Gym 的易于使用的强化学习 (RL) 框架，旨在训练人形机器人的运动技能，强调从模拟到现实环境的零样本迁移。Humanoid-Gym还集成了从Isaac Gym到Mujoco的sim-to-sim框架，允许用户在不同的物理模拟中验证训练好的策略，以确保策略的鲁棒性和泛化性。该代码库由 RobotEra 的 XBot-S（1.2 米高的人形机器人）和 XBot-L（1.65 米高的人形机器人）在现实环境中进行了验证，具有零样本模拟到真实的传输。 | #框架

DeepMind 的深度强化学习足球机器人

DeepMind 的深度强化学习足球机器人在 MuJoCo 物理引擎中进行模拟训练，再转移进真实机器人。可以无缝做出抢断、起身、踢球和追球动作，还对比赛有了基本的战略理解，学习预测球的运动和阻挡对手的射门。

《深度强化学习》简介：深度强化学习是一本围绕其核心主题展开的深刻探索之作，书中详细讨论了与其主题相关的各类观点与现实应用，带给

《深度强化学习》简介：深度强化学习是一本围绕其核心主题展开的深刻探索之作，书中详细讨论了与其主题相关的各类观点与现实应用，带给读者全新的思考视角。这本书为那些想深入了解相关领域的读者提供了充实的内容，值得一读。更多详情请访问相关链接。标签： #深度强#深度强化学习#书籍文件大小：NG 链接：https://pan.quark.cn/s/f4affe0ac795

：产品级的强化学习AI智能体库，旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体，Pearl具有模块

：产品级的强化学习AI智能体库，旨在帮助研究人员和实践者开发适应各种复杂生产环境的最先进的强化学习AI智能体，Pearl具有模块化设计，提供了许多独特的功能，如动态动作空间、离线学习、智能神经探索、安全决策等，支持实际应用领域，包括推荐系统、拍卖竞标系统和创意选择。与其他库相比，Pearl具有更高的灵活性和可扩展性

是一个用 Python 编写的开源 #框架，用于量化（又名监督流行率估计，或学习量化）。

是一个用 Python 编写的开源 #框架，用于量化（又名监督流行率估计，或学习量化）。 QuaPy 基于“数据样本”的概念，提供量化工作流最重要方面的实现，例如（基线和高级）量化方法、面向量化的模型选择机制、评估措施和评估协议用于评估量化方法。QuaPy 还提供常用数据集，并提供可视化工具以促进实验结果的分析和解释

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人