QUICK REVIEW

[論文レビュー] Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning

Minghao Yin, Yu-Xiang Wang|arXiv (Cornell University)|Jan 29, 2020

Age of Information Optimization被引用数 24

ひとこと要約

本稿は、有限の行動空間を持つテーブル型強化学習におけるオフポリシー評価のための修正されたマージナライズド重要度サンプリング（TMIS）推定器を提案する。この推定器は、漸近的に平均二乗誤差のクラーメル・ラオ下界に達し、従来のMIS手法に比べて$H$要因のギャップを解消する。本手法はデータ分割とバイアス補正推定器を用い、分散がホライズン$H$に最適にスケーリングされることを保証し、有限の行動空間下で$O(H^2/n)$のMSEを達成する。

ABSTRACT

We consider the problem of off-policy evaluation for reinforcement learning, where the goal is to estimate the expected reward of a target policy $\\pi$ using offline data collected by running a logging policy $\\mu$. Standard importance-sampling based approaches for this problem suffer from a variance that scales exponentially with time horizon $H$, which motivates a splurge of recent interest in alternatives that break the "Curse of Horizon" (Liu et al. 2018, Xie et al. 2019). In particular, it was shown that a marginalized importance sampling (MIS) approach can be used to achieve an estimation error of order $O(H^3/ n)$ in mean square error (MSE) under an episodic Markov Decision Process model with finite states and potentially infinite actions. The MSE bound however is still a factor of $H$ away from a Cramer-Rao lower bound of order $\\Omega(H^2/n)$. In this paper, we prove that with a simple modification to the MIS estimator, we can asymptotically attain the Cramer-Rao lower bound, provided that the action space is finite. We also provide a general method for constructing MIS estimators with high-probability error bounds.

研究の動機と目的

標準的最重要度サンプリングの高い分散、特に時間ホライズン$H$に指数的に依存する問題を解決する。
既存のマージナライズドIS推定器とクラーメル・ラオ下界とのギャップ（これは$\Omega(H^2/n)$である）を埋め、分散のスケーリングを改善する。
有限の行動空間下で漸近的効率性を達成する理論的裏付けのある推定器を開発する。
データ分割と集中不等式を用いて、推定器の高確率誤差境界を提供する。
非定常的かつ時間依存するテーブル型MDPにおける実験的妥当性を示す。

提案手法

元のMIS推定器のバイアスを補正するため、制御された分散を持つ架空の推定器を導入することで、修正されたマージナライズドIS推定器（TMIS）を提案する。
データ分割を用い、データセットを$N$個の独立したフォールドに分割し、それぞれのフォールドで別個のTMIS推定値を計算する。
$N$個の推定値を平均化することで分散を低減しつつ、不偏性を維持する。
集中不等式とユニオンバウンドを適用し、最終的な推定器の高確率誤差境界を導出する。
分散とバイアスの分析を可能にするため、架空のテーブル型MIS推定器を導入する。これにより、推定器の性能に対する理論的制御が可能になる。
有限の状態および行動空間を持つエピソード型MDPの構造を活用し、最適な$O(H^2/n)$の平均二乗誤差スケーリングを導出する。

実験結果

リサーチクエスチョン

RQ1修正されたマージナライズドIS推定器は、テーブル型MDPにおけるオフポリシー評価でクラーメル・ラオ下界に達するか？
RQ2提案されたデータ分割アプローチは、従来のMIS手法に見られる$H$要因ギャップを解消し、推定器の分散を低減するか？
RQ3有限の行動空間下で、提案された推定器の高確率誤差境界は何か？
RQ4非定常的かつ時間依存するMDPにおいて、推定器の性能は標準的ISおよびSMISと比べてどのように異なるか？
RQ5行動空間が有限であっても、非i.i.d.かつ非定常的ダイナミクス下で、推定器は漸近的効率性を維持できるか？

主な発見

提案されたTMIS推定器は、漸近的にクラーメル・ラオ下界$\Omega(H^2/n)$に達し、平均二乗誤差が$O(H^2/n)$となる。これにより、従来のMIS手法に見られた$H$要因ギャップが解消される。
データ分割を用いたTMISの変種は、高確率誤差境界$\widetilde{O}(\sqrt{H^2SA/n})$を達成し、対数要因を除いて理論的下界と一致する。
実験で用いられた非定常的かつ時間依存するテーブル型MDPにおいて、TMIS推定器はすべてのポリシーで相対的RMSEが$\widetilde{O}(\sqrt{H^3 S^2 A / n})$となる。
実験的結果から、TMISは特にホライズン$H$が大きくなるに従い、標準的ISおよびSMISを上回るRMSE性能を示す。
理論的分析により、推定器が有限の行動空間下で漸近的効率性を有することが確認され、分散が最適に$H^2/n$にスケーリングされることを裏付ける。
データ分割の使用により、より緊密な集中バウンドが得られ、非i.i.d.および非定常的環境下でも推定器が一貫性を保つことが保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。