QUICK REVIEW

[论文解读] Safe Policy Improvement with Baseline Bootstrapping

Romain Laroche, Paul Trichelair|arXiv (Cornell University)|Dec 19, 2017

Information and Cyber Security被引用 82

一句话总结

本论文提出 SPIBB，一种在不确定的状态-行动对上用基线策略对训练策略进行引导的安全离线批量强化学习方法，具有理论安全保证，并提出一个实际的无模型变体 SPIBB-DQN。

ABSTRACT

This paper considers Safe Policy Improvement (SPI) in Batch Reinforcement Learning (Batch RL): from a fixed dataset and without direct access to the true environment, train a policy that is guaranteed to perform at least as well as the baseline policy used to collect the data. Our approach, called SPI with Baseline Bootstrapping (SPIBB), is inspired by the knows-what-it-knows paradigm: it bootstraps the trained policy with the baseline when the uncertainty is high. Our first algorithm, $Π_b$-SPIBB, comes with SPI theoretical guarantees. We also implement a variant, $Π_{\leq b}$-SPIBB, that is even more efficient in practice. We apply our algorithms to a motivational stochastic gridworld domain and further demonstrate on randomly generated MDPs the superiority of SPIBB with respect to existing algorithms, not only in safety but also in mean performance. Finally, we implement a model-free version of SPIBB and show its benefits on a navigation task with deep RL implementation called SPIBB-DQN, which is, to the best of our knowledge, the first RL algorithm relying on a neural network representation able to train efficiently and reliably from batch data, without any interaction with the environment.

研究动机与目标

在无法获得真实环境的情况下，推动离线批量强化学习中的安全策略改进。
引入 SPIBB 框架，在不确定的状态-行动对中使用基线策略对决策进行引导。
提供近似安全改进的理论保证并开发计算效率高的变体。
将 SPIBB 扩展到无模型和基于神经网络的设置，以实现可扩展的应用。
在网格世界、随机 MDPs 和一个深度强化学习导航任务中展示经验上的安全性与性能优势。

提出的方法

定义一个百分位/安全性准则的再表述，使改进在一个不确定性集合内对基线保持安全。
引入自举状态-行动集合，使罕见的 (x,a) 对被强制遵循基线 (Pi_b-SPIBB)。
在 Pi_b-SPIBB 约束下开发带收敛性保证的基于模型的策略迭代。
提供一个更宽松的 Pi_≤b-SPIBB 变体，放宽自举约束以实现实际性能。
提供带 SPIBB 目标的无模型版本，以及使用伪计数启发自举的神经网络的 SPIBB-DQN。
给出相关理论界限，将计数 N_◇ 与安全性和改进联系起来。

实验结果

研究问题

RQ1我们能否在不与环境交互的前提下，在离线批量 RL 设置中保证改进超过给定基线的策略吗？
RQ2如何利用基线自举在不确定的状态-行动对中安全地约束策略改进？
RQ3在安全性和性能方面，基于模型的 Pi_b-SPIBB 与更实用的 Pi_≤b-SPIBB 之间有哪些权衡？
RQ4SPIBB 是否可以扩展到无模型和深度 RL 设置，以实现可扩展的离线改进？
RQ5相比现有的 SPI 方法，SPIBB 变体在网格世界、随机 MDP 和导航任务等不同领域的表现如何？

主要发现

SPIBB 在有限 MDP 中以高概率提供对基线的可证明的安全策略改进。
Pi_b-SPIBB 在估计的 MDP 中收敛到一个 Pi_b 最优策略，并对基线产生 ζ_近似的安全改进。
Pi_≤b-SPIBB 往往能实现更好或相当的改进，同时保持实际的安全性和效率。
一个无模型的 SPIBB 变体和 SPIBB-DQN 使在没有环境交互的情况下从批量数据进行安全训练成为可能。
实证结果表明，在网格世界和随机 MDPs 的平均性能和 CVaR 安全性方面，SPIBB 变体优于若干基线，且 SPIBB-DQN 在一个连续导航任务中表现出安全改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。