Skip to main content
QUICK REVIEW

[論文レビュー] Woulda, Coulda, Shoulda: Counterfactually-Guided Policy Search

Lars Buesing, Théophane Weber|arXiv (Cornell University)|Nov 15, 2018
Advanced Bandit Algorithms Research参考文献 23被引用数 41
ひとこと要約

CF-GPS は構造因果モデル内で代替的な結果を反事実的に評価することにより、オフポリシーデータからポリシーを学習し、モデルバイアスを低減し、ポリシー評価と探索を改善する。

ABSTRACT

Learning policies on data synthesized by models can in principle quench the thirst of reinforcement learning algorithms for large amounts of real experience, which is often costly to acquire. However, simulating plausible experience de novo is a hard problem for many complex environments, often resulting in biases for model-based policy evaluation and search. Instead of de novo synthesis of data, here we assume logged, real experience and model alternative outcomes of this experience under counterfactual actions, actions that were not actually taken. Based on this, we propose the Counterfactually-Guided Policy Search (CF-GPS) algorithm for learning policies in POMDPs from off-policy experience. It leverages structural causal models for counterfactual evaluation of arbitrary policies on individual off-policy episodes. CF-GPS can improve on vanilla model-based RL algorithms by making use of available logged data to de-bias model predictions. In contrast to off-policy algorithms based on Importance Sampling which re-weight data, CF-GPS leverages a model to explicitly consider alternative outcomes, allowing the algorithm to make better use of experience data. We find empirically that these advantages translate into improved policy evaluation and search results on a non-trivial grid-world task. Finally, we show that CF-GPS generalizes the previously proposed Guided Policy Search and that reparameterization-based algorithms such Stochastic Value Gradient can be interpreted as counterfactual methods.

研究の動機と目的

  • 純粋に合成データから生じるモデルバイアスを緩和するために、強化学習における反事実推論を学習への動機づけとする。
  • 構造因果モデルを用いてPOMDPにおけるモデルベースのRLを定式化する。
  • 反事実的ポリシー評価とオフポリシー学習のためのCF-GPSアルゴリズムを導入する。
  • CF-GPSとGPSやStochastic Value Gradientなど既存のRL手法との関係を示す。
  • 部分観測的なSokoban風タスクにおける経験的利点を示す。

提案手法

  • POMDP環境を独立したシナリオと決定論的因果メカニズムを持つ構造因果モデルとして表現する。
  • 観測データからノイズ変数を推定し介入を行ってdo-queriesを得ることで、SCMsにおける反事実推論を定義する。
  • CF-PE を提案する:事後で推定されたシナリオを用いて、モデルミスマッチがない場合にオフポリシーデータ上でポリシーを評価する反事実オフポリシー評価。
  • CF-GPS を提案する:オフポリシー データから導出された反事実分布にモデルのローアウトを固定してポリシー改善を図る反事実に基づくポリシー探索。
  • CF-GPS が Guided Policy Search を一般化し、SVG を反事実的手法として関連づけられることを示す。
  • PO-SOKOBAN におけるCF-GPSとMB-PSおよびGPS系ベースラインを比較する実験設定を提供する。

実験結果

リサーチクエスチョン

  • RQ1RLにおいてオフポリシーデータから学習する際、構造因果モデルにおける反事実推論はバイアスを低減できるか。
  • RQ2CF-PE はバイアスと精度の点で標準的なモデルベースのオフポリシー評価とどう比較されるか?
  • RQ3CF-GPS は現実的で部分的に観測されるタスクにおいて、従来のモデルベースのポリシー探索やGPS風手法よりポリシー探索性能を改善できるか?
  • RQ4CF-GPS、GPS、およびSVG手法の理論的・経験的な関係は何か?
  • RQ5実際のログデータを用いた場合、どの条件下でCF-GPSは従来のモデルベースアプローチを上回るか?

主な発見

  • CF-GPS はオフポリシーデータから推定されたシナリオに基づいてモデルベースの予測を地ならしにすることで、ポリシー評価と探索を改善する。
  • 反事実評価は、モデルミスマッチが仮定されない場合に介入下でポリシー値のバイアスのない推定をもたらす。
  • PO-SOKOBAN におけるポリシー評価とポリシー探索タスクで、CF-GPSはMB-PSおよびGPS風ベースラインを上回る。
  • ロールアウトを反事実分布に固定することは、モデルミスマッチを緩和し、ログデータをより有効に活用するのに役立つ。
  • GPS が全観測MDPにおけるMB-PSの反事実版に相当すること、SVG は反事実的手法としてみなせることを示す関係が確立される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。