QUICK REVIEW

[论文解读] Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

Nathan Kallus, Masatoshi Uehara|arXiv (Cornell University)|Aug 22, 2019

Advanced Causal Inference Techniques参考文献 61被引用 49

一句话总结

论文为马尔可夫决策过程（MDP）中的离线策略评估（OPE）推导了半参数高效界，并引入 Double Reinforcement Learning（DRL），一种交叉折估计、 nuisance 估计估算器，在温和条件下实现全局最优效率并具备双鲁棒性。

ABSTRACT

Off-policy evaluation (OPE) in reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasible. We consider for the first time the semiparametric efficiency limits of OPE in Markov decision processes (MDPs), where actions, rewards, and states are memoryless. We show existing OPE estimators may fail to be efficient in this setting. We develop a new estimator based on cross-fold estimation of $q$-functions and marginalized density ratios, which we term double reinforcement learning (DRL). We show that DRL is efficient when both components are estimated at fourth-root rates and is also doubly robust when only one component is consistent. We investigate these properties empirically and demonstrate the performance benefits due to harnessing memorylessness.

研究动机与目标

在强化学习中，当数据来自不同的行为策略且探索成本高时，推动对 OPE 的准确性。
区分非马尔可夫与马尔可夫决策过程中 OPE 的效率，以理解记忆无关性带来的潜在收益。
引入一种全局高效的估计量（DRL），通过交叉折估计利用 q 函数和密度比。
建立双鲁棒性性质以及对 nuisance 组件的实际估计策略。
提供利用马尔可夫性带来效率提升的实证证据。

提出的方法

在非马尔可夫（M1）和马尔可夫（M2）模型下，推导 rho^pi_e 的有效影响函数和半参数高效界，行为策略已知/未知。
通过交叉折估计并将 q 函数和密度比代入有效影响函数，构建 Double Reinforcement Learning (DRL) 估计量。
证明当 nuisance 以四分之一速率估计时，DRL 达到高效界；且仅有一个分量一致时，具备双鲁棒性。
讨论离线策略下对 q 函数和密度比的估计以用于 DRL，包括参数子模型与效率考量。
提供理论比较，指出利用记忆无关性（MDP 结构）相对于一般 NMDP 的优势。
给出跨模型的效率界关系（NMDP vs MDP）以及在已知/未知行为策略下的关系。

实验结果

研究问题

RQ1在 NMDP 和 MDP 中，离线策略评估的半参数高效界是什么？
RQ2在非参数设定下，是否存在对 OPE 在 MDP 中的全局高效估计量？
RQ3利用马尔可夫（记忆无关）结构如何影响 OPE 的高效界与估计量设计？
RQ4一种基于交叉折 nuisance 估计的估计量（DRL）是否能在两种模型中实现高效并表现出双鲁棒性？
RQ5在 DRL 中，离线策略下估计 q 函数和密度比的实际策略有哪些？

主要发现

在推导的有效影响函数下，DRL 在 MDPs 和非马尔可夫设置下对 OPE 具有效率。
在 MDP 下的效率界通常与时域长度成多项式关系，而在 NMDP 下通常呈指数关系，突出非马尔可夫模型的维度诅咒。
即使某些 nuisance 分量估计不一致，DRL 仍保持一致，体现出双鲁棒性。
MDP 下的有效影响函数涉及边缘化的密度比，反映了记忆无关性如何改变估计结构。
本文提供了一种通过对 q 函数和密度比进行交叉拟合的实际路径，以实现高效 OPE。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。