QUICK REVIEW

[论文解读] Near-Optimal Provable Uniform Convergence in Offline Policy Evaluation for Reinforcement Learning

Minghao Yin, Yu Bai|arXiv (Cornell University)|Jul 7, 2020

Reinforcement Learning in Robotics被引用 24

一句话总结

本文提出了一种用于强化学习中离线策略评估（OPE）的统一收敛框架，实现了对策略类中所有策略的可证明近似最优样本复杂度。通过结合基于模型的规划方法与离线策略经验模型近似器（OPEMA），该方法在时间非齐次的周期性马尔可夫决策过程下，实现了识别 $\epsilon$-最优策略的最优episode复杂度 $\widetilde{O}(H^3 / (d_m \epsilon^2))$，这是离线强化学习中首个可证明最优速率的成果。

ABSTRACT

The problem of Offline Policy Evaluation (OPE) in Reinforcement Learning (RL) is a critical step towards applying RL in real-life applications. Existing work on OPE mostly focus on evaluating a fixed target policy $π$, which does not provide useful bounds for offline policy learning as $π$ will then be data-dependent. We address this problem by simultaneously evaluating all policies in a policy class $Π$ -- uniform convergence in OPE -- and obtain nearly optimal error bounds for a number of global / local policy classes. Our results imply that the model-based planning achieves an optimal episode complexity of $\widetilde{O}(H^3/d_mε^2)$ in identifying an $ε$-optimal policy under the time-inhomogeneous episodic MDP model ($H$ is the planning horizon, $d_m$ is a quantity that reflects the exploration of the logging policy $μ$). To the best of our knowledge, this is the first time the optimal rate is shown to be possible for the offline RL setting and the paper is the first that systematically investigates the uniform convergence in OPE.

研究动机与目标

为解决离线策略评估（OPE）中统一收敛分析的空白，这在离线强化学习的泛化中至关重要。
提供有限样本保证，统一界定了给定策略类 $\Pi$ 中所有策略的估计误差，而非仅针对单一固定策略。
在时间非齐次的周期性马尔可夫决策过程模型下，建立首个可证明最优的离线策略学习episode复杂度。
证明基于模型的规划与统一OPE结合可实现样本高效的离线学习，并具备紧密的理论边界。

提出的方法

提出一种新颖的离线策略经验模型近似器（OPEMA），可直接从离线数据中估计状态-动作分布、转移模型和奖励函数。
使用策略内经验估计方法获取初始状态分布，并在目标策略下利用估计的转移动态逐轮传播。
应用统一的集中不等式与基于鞅的界，控制所有时间步与所有策略上的估计误差。
将价值估计误差分解为模型误差与价值函数误差两部分，支持递归误差传播分析。
引入虚构的OPEMA估计器以解耦估计与规划过程，促进理论分析。
通过信息论下界推导episode复杂度边界，证明所提方法的紧致性。

实验结果

研究问题

RQ1能否为包括全局策略、确定性策略和局部最优策略在内的广泛策略类建立OPE的统一收敛性，并提供可证明的有限样本保证？
RQ2在时间非齐次的周期性马尔可夫决策过程模型下，离线策略学习的最优样本复杂度是多少？是否可通过基于模型的规划实现？
RQ3记录策略 $\mu$ 的探索质量（以 $d_m$ 衡量）如何影响离线策略评估与学习的样本效率？
RQ4所提出的OPEMA估计器能否实现离线强化学习中样本复杂度的信息论下界？
RQ5基于数据分割的估计器是否可被统一的、非分割的OPEMA框架在样本效率与实现清晰度上超越？

主要发现

所提出的OPEMA估计器在高概率下实现了对策略类 $\Pi$ 中所有策略的统一收敛，确保 $\sup_{\pi \in \Pi} |\widehat{v}^\pi - v^\pi| \leq \epsilon$。
识别 $\epsilon$-最优策略的episode复杂度为 $\widetilde{O}(H^3 / (d_m \epsilon^2))$，与信息论下界仅相差对数因子。
对于全局策略与确定性策略类，该方法通过统一集中不等式与鞅不等式，实现了近乎最优的误差界。
分析表明，通过OPEMA框架中更紧密的递归误差传播，基于标准模拟引理的方法可提升 $H^2 S$ 倍。
本文建立了统一OPE的样本复杂度下界，证明所推导的速率在对数因子内为最优。
OPEMA框架避免了数据分割方法的缺陷，后者存在数据利用效率低下及转移模型选择模糊的问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。