QUICK REVIEW

[論文レビュー] Deconfounding Reinforcement Learning in Observational Settings

Chaochao Lu, Bernhard Schölkopf|arXiv (Cornell University)|Dec 26, 2018

Reinforcement Learning in Robotics参考文献 33被引用数 34

ひとこと要約

本稿では、潜在的交絡要因が存在する観察データからの方策学習を改善するため、因果推論とアクター・クリティック強化学習を統合したDeconfounding Reinforcement Learning (DRL) フレームワークを提案する。変分推論を用いて潜在的交絡要因をモデル化し、その影響を補正することで、DRLは方策最適化を向上させ、合成およびMNISTベースの環境を含む新しいベンチマークにおいて、交絡要因が存在する環境で標準的な強化学習手法よりも優れた性能を示した。

ABSTRACT

We propose a general formulation for addressing reinforcement learning (RL) problems in settings with observational data. That is, we consider the problem of learning good policies solely from historical data in which unobserved factors (confounders) affect both observed actions and rewards. Our formulation allows us to extend a representative RL algorithm, the Actor-Critic method, to its deconfounding variant, with the methodology for this extension being easily applied to other RL algorithms. In addition to this, we develop a new benchmark for evaluating deconfounding RL algorithms by modifying the OpenAI Gym environments and the MNIST dataset. Using this benchmark, we demonstrate that the proposed algorithms are superior to traditional RL methods in confounded environments with observational data. To the best of our knowledge, this is the first time that confounders are taken into consideration for addressing full RL problems with observational data. Code is available at https://github.com/CausalRL/DRL.

研究の動機と目的

未観測の交絡要因が行動と報酬の分布にバイアスをもたらす観察的状況における強化学習を解決すること。
特に時変治療を伴う順序的な意思決定の文脈において、因果推論手法を完全な強化学習問題に統合すること。
履歴データに存在する潜在的交絡要因を考慮したアクター・クリティックアルゴリズムのデコンフーマンス版を開発すること。
OpenAI Gym環境を改造し、MNISTを用いた新しいベンチマークを構築し、デコンフーマンス強化学習アルゴリズムの評価を可能にすること。
交絡要因の補正が、交絡要因が存在する観察的データにおいて、標準的な強化学習よりも優れた方策性能をもたらすことを示すこと。

提案手法

潜在的交絡要因を変分オートエンコーダ（VAE）を用いてモデル化し、観察データから交絡要因の事後分布を推定する一般的なDRLフレームワークを構築する。
標準的な無視可能性と条件付き独立性の仮定の下で、構造的因果モデルを用いて交絡要因が行動と報酬に与える影響を同定する。
do計算を適用して潜在的交絡要因に干渉することで交絡を補正し、バイアスのない方策評価と学習を可能にする。
推定された交絡要因の影響を考慮したデコンフーマンス価値関数と方策勾配を組み込んだ、アクター・クリティックアルゴリズムの拡張を行う。
変分推論を用いて潜在的交絡要因と方策を同時に推定し、観察データからのエンド・ツー・エンドの訓練を可能にする。
合成的交絡要因を含む、改造されたGym環境とMNISTベースの制御タスクを組み合わせた新しいベンチマークで、手法の有効性を検証する。

実験結果

リサーチクエスチョン

RQ1未観測の交絡要因が行動と報酬に影響を与える状況において、観察データから最適な方策を学習することは可能か？
RQ2アクター・クリティックのような標準的な強化学習アルゴリズムは、観察的状況における潜在的交絡要因をどのように考慮することができるか？
RQ3交絡要因の補正が、交絡が存在する環境において、標準的な強化学習と比較して方策性能に与える影響は何か？
RQ4順序的な意思決定タスクにおいて、デコンフーマンス強化学習アルゴリズムを評価するための信頼性のあるベンチマークを構築できるか？
RQ5提案されたDRLフレームワークは、既存の因果推論および強化学習手法と比較して、方策の質と頑健性において優れているか？

主な発見

新しいベンチマークにおいて、デコンフーマンス・アクター・クリティック法は、ヴァニラ・アクター・クリティック法や直接的なACベースラインと比較して、有意に高い平均テスト時総報酬を達成した。
デコンフーマンスACは、ヴァニラACが半分未塔の割合で最適行動を選択するのに対し、最適行動を選択するエピソードが50％以上多い。
提案されたベンチマークは、未観測の交絡要因が原因で標準的な強化学習の性能が低下することを明確に示しており、デコンフーマンス手法の必要性を検証した。
変分推論を用いて潜在的交絡要因を効果的に同定・補正し、観察データにおける方策の一般化性能を向上させた。
結果から、交絡要因の補正が、医療や金融などの実世界の状況において、より信頼性が高く効果的な方策学習を実現することを示した。
著者らの知る限り、本稿は、因果推論と観察データを用いて、完全な強化学習問題における交絡を体系的かつ包括的に取り扱った最初の研究である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。