QUICK REVIEW

[論文レビュー] Causal Reinforcement Learning using Observational and Interventional Data

Maxime Gasse, Damien Grasset|arXiv (Cornell University)|Jun 28, 2021

Reinforcement Learning in Robotics参考文献 26被引用数 23

ひとこと要約

本論文は、隠れた情報を持つエージェントからの観測データ（観察的データ）と、学習エージェント自身の相互作用からの介入的データ（介入的データ）を統合する因果的強化学習フレームワークを提案する。部分的に観測可能なマルコフ意思決定過程（POMDP）における方策学習の向上を目的としており、潜在変数を用いた因果的遷移モデルを用いて環境をモデル化し、do-計算を適用して交絡要因を除去することで、正しいかつ効率的な一般化が可能となる。理論的保証と合成タスクにおける実証的検証を併せ持つ。

ABSTRACT

Learning efficiently a causal model of the environment is a key challenge of model-based RL agents operating in POMDPs. We consider here a scenario where the learning agent has the ability to collect online experiences through direct interactions with the environment (interventional data), but has also access to a large collection of offline experiences, obtained by observing another agent interacting with the environment (observational data). A key ingredient, that makes this situation non-trivial, is that we allow the observed agent to interact with the environment based on hidden information, which is not observed by the learning agent. We then ask the following questions: can the online and offline experiences be safely combined for learning a causal model ? And can we expect the offline experiences to improve the agent's performances ? To answer these questions, we import ideas from the well-established causal framework of do-calculus, and we express model-based reinforcement learning as a causal inference problem. Then, we propose a general yet simple methodology for leveraging offline data during learning. In a nutshell, the method relies on learning a latent-based causal transition model that explains both the interventional and observational regimes, and then using the recovered latent variable to infer the standard POMDP transition model via deconfounding. We prove our method is correct and efficient in the sense that it attains better generalization guarantees due to the offline data (in the asymptotic case), and we illustrate its effectiveness empirically on synthetic toy problems. Our contribution aims at bridging the gap between the fields of reinforcement learning and causality.

研究の動機と目的

観察されたエージェントが隠れた情報を用いているような部分的に観測可能なマルコフ意思決定過程（POMDP）において、観測的データと介入的データを統合するモデルベース強化学習の課題に対処すること。
観測的データにおける交絡要因（観察された行動と未観測変数との相関）を、その未観測変数にアクセスせずに克服すること。
オフラインデータを安全に活用する原理的かつ整合的な手法を開発し、オンライン強化学習におけるサンプル効率と一般化性能の向上を図ること。
do-計算を用いてモデルベース強化学習を因果推論問題として形式化することで、因果性と強化学習のギャップを埋めること。
オフラインデータが、隠れた変数による交絡がある場合でも、漸近的性能を向上させることを示すこと。

提案手法

do-計算を用いて観測的および介入的状態の違いを明確にし、モデルベース強化学習を因果推論問題として形式化すること。
介入的データと観測的データの両方を統合的に説明できる潜在変数を備えた因果的遷移モデルを導入し、未観測の交絡要因を捉えること。
回復された潜在変数を用いて観測的データの交絡を除去し、標準的なPOMDP遷移モデルの不偏推定を可能にすること。
do-計算を用いて、混合データソースから因果的効果を推定可能な同定可能性条件を導出すること。
オンラインデータとオフラインデータの両方の影響を、利用可能なサンプル数に応じて動的にバランスさせる実用的な学習手順を実装すること。
潜在モデルを用いて反事後的結果を推論し、観測的データにおける交絡要因に強く影響されない方策学習をガイドすること。

実験結果

リサーチクエスチョン

RQ1隠れた情報を有するエージェントからの観測的データを、POMDPにおけるオンライン介入的データと安全に統合できるか？
RQ2どのような条件下で、交絡された観測的データがモデルベース強化学習における一般化性能を向上させられるか？
RQ3do-計算を用いることで、混合データ環境における因果的効果の同定可能性を形式的に推論できるか？
RQ4オフラインデータを活用することで、オンラインデータのみを用いる場合と比較して、より優れた漸近的性能が得られるか？
RQ5潜在変数モデルは、隠れた交絡要因が存在する状況でも、観測的データの交絡を効果的に除去し、方策学習を改善できるか？

主な発見

本手法は、未観測変数による交絡があるとしても、do-計算を用いて形式化された因果的推論を正しく行うことができる。
理論的分析により、観測的データと介入的データの両方を用いることで、漸近的条件下でより良い一般化保証が達成されることを示した。
合成トイ問題における実証的結果から、本手法はオンラインデータのみを用いる場合と比較して、サンプル効率と方策性能の両方を向上させることを示した。
潜在変数モデルは、観測的データの交絡を効果的に除去し、真のPOMDP遷移ダイナミクスの正確な推定を可能にした。
特に強い交絡がある状況下でも、観測的データを介入的データとして扱う単純なベースラインに比べ、本手法は優れた性能を示した。
本手法は、オフラインデータの量の変動に対してもロバストであり、その情報量に応じてオフラインデータの寄与度を動的に調整する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。