Skip to main content
QUICK REVIEW

[論文レビュー] Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling

Tengyang Xie, Yifei Ma|arXiv (Cornell University)|Jan 1, 2019
Advanced Causal Inference Techniques被引用数 53
ひとこと要約

本稿は、長いホライズンと大きなアクション空間を有する非定常なエピソード的MDPにおけるオフポリシー評価のための、マージナライズドインポートランスサンプリング(MIS)推定器を提案する。再帰的な状態マージナル分布の推定を用いることで、MISはホライズンHに対して多項式的依存を持つ平均二乗誤差の上限を達成し、Cramer-Rao下界にHの要因を除いて一致する。また、挑戦的な強化学習環境において優れた実験的性能を示す。

ABSTRACT

Motivated by the many real-world applications of reinforcement learning (RL) that require safe-policy iterations, we consider the problem of off-policy evaluation (OPE) --- the problem of evaluating a new policy using the historical data obtained by different behavior policies --- under the model of nonstationary episodic Markov Decision Processes (MDP) with a long horizon and a large action space. Existing importance sampling (IS) methods often suffer from large variance that depends exponentially on the RL horizon $H$. To solve this problem, we consider a marginalized importance sampling (MIS) estimator that recursively estimates the state marginal distribution for the target policy at every step. MIS achieves a mean-squared error of $$ \frac{1}{n} \sum_{t=1}^H\mathbb{E}_{\mu}\left[\frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_{\mu}\left[\frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)}\big( V_{t+1}^\pi(s_{t+1}) + r_t\big) \middle| s_t ight] ight] + ilde{O}(n^{-1.5}) $$ where $\mu$ and $\pi$ are the logging and target policies, $d_t^{\mu}(s_t)$ and $d_t^{\pi}(s_t)$ are the marginal distribution of the state at $t$th step, $H$ is the horizon, $n$ is the sample size and $V_{t+1}^\pi$ is the value function of the MDP under $\pi$. The result matches the Cramer-Rao lower bound in [Jiang and Li, 2016] up to a multiplicative factor of $H$. To the best of our knowledge, this is the first OPE estimation error bound with a polynomial dependence on $H$. Besides theory, we show empirical superiority of our method in time-varying, partially observable, and long-horizon RL environments.

研究の動機と目的

  • 長ホライズン、大規模アクション空間のMDPにおけるオフポリシー評価(OPE)の高分散問題に対処すること。
  • 従来のインポートランスサンプリング(IS)手法で見られるホライズンHに指数的依存する問題を軽減すること。
  • Hに対して多項式的スケーリングを行う理論的根拠を持つ誤差バウンドを有するOPE推定器の開発。
  • 非定常的かつ部分的に観測可能な環境において、既存のISベースのOPE手法よりも理論的および実験的に優れた性能を達成すること。

提案手法

  • 本手法は、各時刻でターゲット方策下での状態マージナル分布を再帰的に推定するマージナライズドインポートランスサンプリング(MIS)推定器を導入する。
  • インポートランスサンプリングの寄与度を再重み付けするために、状態マージナル確率の比 $ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} $ を活用する。
  • 重要度重みの計算に、価値関数 $ V_{t+1}^\pi(s_{t+1}) $ と即時の報酬 $ r_t $ を組み込む。
  • 価値関数の再帰的分解を用いることで推定を安定化させ、分散を低減する。
  • 理論的分析により、平均二乗誤差が $ \frac{1}{n} \sum_{t=1}^H \mathbb{E}_\mu\left[ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_\mu\left[ \frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)} (V_{t+1}^\pi(s_{t+1}) + r_t) \mid s_t \right] \right] + \tilde{O}(n^{-1.5}) $ でバウンドされることを示す。
  • 本手法は、時間的に変化する、部分的に観測可能な、および長ホライズンの強化学習設定に適用可能であるように設計されている。

実験結果

リサーチクエスチョン

  • RQ1標準的なISで見られるホライズンHに指数的依存する分散の問題を、標準ISを上回る長ホライズンMDPにおけるオフポリシー評価で低減できるか?
  • RQ2マージナライズドインポートランスサンプリングは、ホライズンHに対して多項式的スケーリングを持つ理論的誤差バウンドを達成するか?
  • RQ3部分的に観測可能で時間的に変化する強化学習環境において、MISは既存のOPE手法と比べてどのように性能を発揮するか?
  • RQ4非定常なエピソード的MDPにおけるOPEにおいて、MISはCramer-Rao下界にどの程度近づくか?
  • RQ5大規模アクション空間および長ホライズン設定において、MISは低分散かつ高精度を維持できるか?

主な発見

  • MIS推定器は、ホライズンHに対して多項式的依存を持つ平均二乗誤差の上限を達成し、標準ISの指数的依存に比べて顕著な改善を示す。
  • 理論的誤差バウンドは、[JiangとLi, 2016]のCramer-Rao下界にHの乗数因子を除いて一致する。
  • 本手法は、非定常なエピソード的MDPにおいて、Hに対して多項式的依存を持つこのようなバウンドを達成する最初のOPE推定器である。
  • 実験的結果から、時間的に変化する、部分的に観測可能な、および長ホライズンの強化学習環境において、MISは既存手法を上回ることを示す。
  • 主な誤差項に加えて、$ \tilde{O}(n^{-1.5}) $ スタイルの収束レートを達成しており、有限標本性能が優れていることを示唆する。
  • 再帰的な状態マージナル分布の推定は、長ホライズン設定における時系列にわたる分散の伝搬を効果的に低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。