Skip to main content
QUICK REVIEW

[論文レビュー] Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

Nathan Kallus, Masatoshi Uehara|arXiv (Cornell University)|Aug 22, 2019
Advanced Causal Inference Techniques参考文献 61被引用数 49
ひとこと要約

この論文は、MDP におけるオフポリシー評価(OPE)に対する半パラメトリック効率境界を導出し、クロスフォールド、ノイズ推定量である Double Reinforcement Learning (DRL) を導入します。グローバル効率性は緩和条件の下で達成され、ダブルロバスト性を持つとされます。

ABSTRACT

Off-policy evaluation (OPE) in reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasible. We consider for the first time the semiparametric efficiency limits of OPE in Markov decision processes (MDPs), where actions, rewards, and states are memoryless. We show existing OPE estimators may fail to be efficient in this setting. We develop a new estimator based on cross-fold estimation of $q$-functions and marginalized density ratios, which we term double reinforcement learning (DRL). We show that DRL is efficient when both components are estimated at fourth-root rates and is also doubly robust when only one component is consistent. We investigate these properties empirically and demonstrate the performance benefits due to harnessing memorylessness.

研究の動機と目的

  • 報酬データが異なる挙動ポリシー由来であり、探索が高コストな RL における OPE の正確性を動機づける。
  • 非マルコフ性とマルコフ性の意思決定過程における OPE の効率性を区別し、メモリレス性から得られる潜在的利益を理解する。
  • cross-fold 推定を通じて q-function と密度比を用いたグローバルに効率的な推定量(DRL)を導入する。
  • ノイズ成分の推定におけるダブルロバスト性の性質と実用的な推定戦略を確立する。
  • マルコフ性を活用した効率性の向上による効率性の利得を実証的に示す。

提案手法

  • 非マルコフモデル(M1)とマルコフモデル(M2)の下で、挙動ポリシーが既知/未知である場合の rho^pi_e の効率的影響関数と半パラメトリック効率境界を導出する。
  • 効率的影響関数に q-function と密度比をプラグインすることで、DRL をクロスフォールド推定として構築する。
  • ノイズ成分が四分の根の速度で推定されるときに DRL が効率境界を達成し、一方の成分のみが一貫して推定される場合にはダブルロバストであることを示す。
  • DRL で使用される q-function と密度比のオフポリシー推定について、パラメトリックな部分モデルと効率性の観点を含めて議論する。
  • NMDP より MDP のメモリレス性(記憶なし性)を活用する利点を示す理論的比較を提供する。
  • 効率境界がモデル間(NMDP vs MDP)および既知/未知の挙動ポリシーにわたってどう関連するかを示す。

実験結果

リサーチクエスチョン

  • RQ1NMDP と MDP におけるオフポリシー評価の半パラメトリック効率境界とは何か?
  • RQ2ノンパラメトリック設定下で OPE に対して MDP のグローバル効率性を満たす推定量は存在し得るか?
  • RQ3マルコフ(記憶なし)構造を活用すると OPE の効率境界と推定量設計にどのような影響があるか?
  • RQ4クロスフォールドのノイズ推定ベースの推定量(DRL)は両モデルで効率性とダブルロバスト性を示すか?
  • RQ5DRL のために q-function と密度比をオフポリシーで推定する実用的戦略は何か?

主な発見

  • DRL は導出された効率的影響関数の下で、MDP および非マルコフ性設定の OPE に対して効率的であることを示す。
  • MDP の下での効率境界は一般にホライズン長に対して多項式的であるのに対し、NMDP の下では一般に指数的であり、非マルコフモデルにおけるホライズンの呪いを強調する。
  • DRL はノイズ成分の推定が不一致であっても依然として一致性を保ち、ダブルロバスト性を示す。
  • MDP 下の効率的影響関数は限界化された密度比を含み、メモリレス性が推定構造をどう変えるかを反映している。
  • 密度比と q-function のノイズ推定量をクロスフィットすることで、効率的な OPE の実務的実装へと導く道筋を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。