QUICK REVIEW

[論文レビュー] Minimax Weight and Q-Function Learning for Off-Policy Evaluation

Masatoshi Uehara, Jiawei Huang|arXiv (Cornell University)|Oct 28, 2019

Reinforcement Learning in Robotics参考文献 44被引用数 29

ひとこと要約

本稿では、行動方策の知識に依存しない関数族上のミニマックス最適化により重要度重みとQ関数を学習する2つの新しい非政策評価推定法、MWLおよびMQLを提案する。これらの手法は、表形式設定において半パラメトリック効率性を達成し、既存のアルゴリズムを統一する。MQLは二重にロバストな推定により、より高いサンプル効率性とロバスト性を示す。

ABSTRACT

We provide theoretical investigations into off-policy evaluation in reinforcement learning using function approximators for (marginalized) importance weights and value functions. Our contributions include: (1) A new estimator, MWL, that directly estimates importance ratios over the state-action distributions, removing the reliance on knowledge of the behavior policy as in prior work (Liu et al., 2018). (2) Another new estimator, MQL, obtained by swapping the roles of importance weights and value-functions in MWL. MQL has an intuitive interpretation of minimizing average Bellman errors and can be combined with MWL in a doubly robust manner. (3) Several additional results that offer further insights into these methods, including the sample complexity analyses of MWL and MQL, their asymptotic optimality in the tabular setting, how the learned importance weights depend the choice of the discriminator class, and how our methods provide a unified view of some old and new algorithms in RL.

研究の動機と目的

行動方策の密度に関する明示的な知識を必要としない新しい非政策評価推定法の開発を目的とする。
関数近似を用いた非政策価値推定におけるサンプル効率性と統計的ロバスト性の向上を目的とする。
マージナライズド重要度サンプリング、Q関数学習、および既存の強化学習アルゴリズムを結びつける統一的理論的枠組みの提供を目的とする。
提案された推定法のサンプル複雑度および漸近的最適性に関する理論的保証を確立することを目的とする。
状態行動関数のモデリングが表形式非政策評価において半パラメトリック効率性の下限に達することを示すこと

提案手法

行動方策の知識を必要としない、状態行動重要度比を識別器クラスを用いて直接学習するミニマックス推定法であるMWLを提案する。
MWLにおける重要度重みとQ関数の役割を入れ替えることで、重要度重みを識別器として用いたQ関数学習を可能にするMQLを導入する。
状態行動ペア上の関数近似器を用いて、重要度重みとQ関数の適合具合をバランスさせるミニマックス目的関数を採用する。
MWLおよびMQLのサンプル複雑度の境界を導出し、やや弱い表現仮定のもとで収束速度の向上を示す。
MWLとMQLを組み合わせた二重にロバストな推定法を構築し、推定の分散低減とモデル不適合に対するロバスト性を向上させる。
適応的帯域幅選択（中央値ヒューリスティック）を用いたカーネルベースの関数クラスとバッチ正規化を用いて、ニューラルネットワーク近似器の学習を安定化させる。

実験結果

リサーチクエスチョン

RQ1行動方策の密度を明示的に知らなくても、非政策評価を実行できるか？
RQ2関数近似の下で、MWLおよびMQLのサンプル複雑度は、先行手法と比較してどのように異なるか？
RQ3状態行動関数のモデリングは、表形式非政策評価において半パラメトリック効率性の下限に達することができるか？
RQ4MWL/MQLとLSTDQや段階的ISといった既存のアルゴリズムとの関係は何か？
RQ5識別器クラスの選択が、学習された重要度重みおよび推定性能にどのように影響するか？

主な発見

状態行動関数をモデリングする場合、MWLおよびMQLは、それらの状態関数バージョンとは異なり、表形式設定で半パラメトリック効率性の下限に達する。
MQLは、MWLと組み合わせた二重にロバストな推定法により、推定の分散低減とより高いサンプル複雑度とロバスト性を示す。
エピソード的MDPにおける段階的重要度サンプリングは、履歴に基づくMDP定式化のもとでMWLの特別な場合として形式的に示される。
重要度重みとQ関数の両方が同じ線形クラスでモデリングされる場合、MWLおよびMQLは、それぞれLSTDQおよび非政策LSTDの特別な場合に還元される。
実験結果では、MQLおよびMWLは、さまざまなターゲット方策およびサンプルサイズにおいて、DualDICEおよびMSWLを上回る正規化MSEを示し、負の正規化誤差スコアはベースラインに対する一貫した改善を示している。
適応的帯域幅（MWLではh/3、MQLではh/15）を用いたカーネルベースの関数クラスとバッチ正規化の使用により、安定した学習と性能向上が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。