QUICK REVIEW

[論文レビュー] Causal Confusion in Imitation Learning

Pim de Haan, Dinesh Jayaraman|arXiv (Cornell University)|May 28, 2019

Robot Manipulation and Learning参考文献 56被引用数 127

ひとこと要約

本論文は、分布シフト下の模倣学習における原因誤識別を中核的な故障モードとして特定し、ターゲットを絞った環境相互作用や専門家への問いかけを通じて真の因果モデルを回復する因果に基づく介入フレームワークを提案します。

ABSTRACT

Behavioral cloning reduces policy learning to supervised learning by training a discriminative model to predict expert actions given observations. Such discriminative models are non-causal: the training procedure is unaware of the causal structure of the interaction between the expert and the environment. We point out that ignoring causality is particularly damaging because of the distributional shift in imitation learning. In particular, it leads to a counter-intuitive "causal misidentification" phenomenon: access to more information can yield worse performance. We investigate how this problem arises, and propose a solution to combat it through targeted interventions---either environment interaction or expert queries---to determine the correct causal model. We show that causal misidentification occurs in several benchmark control domains as well as realistic driving settings, and validate our solution against DAgger and other baselines and ablations.

研究の動機と目的

分布シフトによって非因果的な挿入を行う行動クローンが、因果誤識識別のためにどのように失敗するかを特定する。
模倣学習における因果グラフと介入の役割を形式化する。
グラフパラメータ化ポリシーのフレームワークと、正しい因果モデルを回復するターゲット介入を提案する。
標準的ベースラインおよびアブレーションと比較して、ベンチマーク制御タスクおよび現実的な運転シナリオでアプローチを評価する。

提案手法

ポリシーを因果グラフGによってパラメータ化された混合としてモデル化する。各グラフは状態特徴がエキスパートの行動の原因であるかを定義する。
デモンストレーションを通じてグラフをサンプリングし、行動予測損失を最小化することにより、グラフパラメータ化ポリシーを訓練する。
介入的クエリ（専門家または環境ベース）を使用して、見解の相違やリターンを評価することにより真の因果グラフをスコア付けし識別する。
2つの介入モードを提供する：専門家クエリ介入（情報量の多い状態へのアクティブクエリ）とポリシー実行介入（グラフ間でエピソードリターンを比較）。
β-VAEを用いて観測を分離し、画像データを使用する際に原因とノイズ要因を状態表現から分離する。

実験結果

リサーチクエスチョン

RQ1模倣学習における因果誤識別とは何か、分布シフトの下でそれはどのように生じるのか。
RQ2ターゲット介入は真の因果モデルを特定し、模倣ポリシーのロバスト性を向上させることができるか。
RQ3専門家クエリと環境ベースの介入のどちらが正しいグラフを回復するのに効果的か。
RQ4観測の分離は真の原因を発見する能力に影響を与えるか。
RQ5提案手法は標準的なベースラインやDAgger、ドロップアウト、GAILと比較してどうか。

主な発見

因果誤識別は、ノイズ的な相関が方策を誤導するため、より多くの情報が利用可能な場合にも模倣性能を低下させる。
グラフパラメータ化ポリシーとターゲット介入は、正しい因果モデルを特定し性能ギャップを縮めることができる。
ポリシー実行介入は、運転類似タスクで専門家クエリアプローチより少ないエピソード数で真の因果モデルへ収束する傾向がある。
専門家クエリ介入は、いくつかのタスクで同等の改善を得るのにDAggerよりクエリ数が少なくて済む。
β-VAEによる観測の分離は、真の原因を効果的に発見し介入結果を改善するために重要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。