Skip to main content
QUICK REVIEW

[論文レビュー] Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning

Cameron Voloshin, Hoang Le|arXiv (Cornell University)|Nov 15, 2019
Reinforcement Learning in Robotics参考文献 60被引用数 68
ひとこと要約

この論文は Caltech OPE Benchmarking Suite (COBS) の紹介と、多様な環境と要因にわたるオフポリシー評価(OPE)手法の広範な実証研究を行う。

ABSTRACT

We offer an experimental benchmark and empirical study for off-policy policy evaluation (OPE) in reinforcement learning, which is a key problem in many safety critical applications. Given the increasing interest in deploying learning-based methods, there has been a flurry of recent proposals for OPE method, leading to a need for standardized empirical analyses. Our work takes a strong focus on diversity of experimental design to enable stress testing of OPE methods. We provide a comprehensive benchmarking suite to study the interplay of different attributes on method performance. We distill the results into a summarized set of guidelines for OPE in practice. Our software package, the Caltech OPE Benchmarking Suite (COBS), is open-sourced and we invite interested researchers to further contribute to the benchmark.

研究の動機と目的

  • 性能に影響を与える要因を強調する OPE の標準化ベンチマーク手法を導入する。
  • OPE 手法の堅牢なストレステストを可能にする多様な実験ドメインを提供する。
  • 代表的な OPE ベースラインを体系的に評価し、手法選択の実践的ガイドラインを導出する。

提案手法

  • Caltech OPE Benchmarking Suite (COBS) を開発し、データ生成とドメイン要因を制御して OPE 手法のストレステストを可能にする。
  • OPE 手法を Inverse Propensity Scoring、Direct Methods、Hybrid Methods に分類し、それぞれのカテゴリから代表的なベースラインを評価する。
  • 可変の horizon、sparsity、stochasticity、表現、そして policy mismatch を備えた 8 環境を設計し、さまざまな条件下での性能を研究する。
  • 状態に依存しない固定行動確率と Q* から導出された ε-greedy の 2 つのポリシークラスを用い、相対 MSE および 複数のシードにわたる上位付近の頻度で性能を測定する。
  • 数千の実験をベンチマークして手法の頑健性を評価し、手法選択の実践的ガイドラインを導出する。

実験結果

リサーチクエスチョン

  • RQ1多様な環境において、異なる OPE 手法(IPS、DM、HM)はどの条件で最も良い性能を示すか。
  • RQ2 horizon の長さ、報酬の希薄さ、確率性、ポリシーの不一致、表現などの要因が OPE の精度にどのように影響するか。
  • RQ3単一の優れた OPE 手法は存在するか、それとも性能はドメインと実験条件に依存するか。
  • RQ4モデルのミススペシフィケーションと未知の挙動ポリシーが、手法間で OPE の性能にどのように影響するか。
  • RQ5実務者が OPE 手法を選択するのを支援するために、どのガイドラインを抽出できるか。

主な発見

  • どの条件にも支配的な単一手法はなく、性能は文脈依存が高い。
  • PDWIS は、テストされたシナリオの多くでIPSベースの推定量の中で最も良い性能を示すことが多い。
  • Direct Methods の中では、FQE、Q^π(λ)、IH が繰り返し高い性能を示し、データが少ない状況では FQE が優れ、データが増えると Q^π(λ) が改善する。
  • Hybrid(DR/WDR/MAGIC)手法はしばしばベースの DM より優れており、MAGIC が頻繁に最上位の性能を示すが、チューニングはデータとドメイン依存である。
  • モデルのミススペシフィケーションと高いポリシー不一致は HM に有利になることがあるが、多くの高次元または長期の設定では DM が競争力があるか、むしろ上回ることもある。
  • horizon の長さは重要だが、評価ポリシーと挙動ポリシーの間のポリシー分岐が精度により大きな影響を及ぼすことがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。