QUICK REVIEW

[論文レビュー] InfoGAIL: Interpretable Imitation Learning from Visual Demonstrations

Yunzhu Li, Jiaming Song|arXiv (Cornell University)|Mar 26, 2017

Reinforcement Learning in Robotics参考文献 39被引用数 141

ひとこと要約

InfoGAIL は GAIL に潜在変数を追加し、専門家のデモンストレーションの潜在要因を発見・分離して、視覚入力からの解釈可能な模倣を実現し、 supervisonなしで複数の挙動モードを学習できる。

ABSTRACT

The goal of imitation learning is to mimic expert behavior without access to an explicit reward signal. Expert demonstrations provided by humans, however, often show significant variability due to latent factors that are typically not explicitly modeled. In this paper, we propose a new algorithm that can infer the latent structure of expert demonstrations in an unsupervised way. Our method, built on top of Generative Adversarial Imitation Learning, can not only imitate complex behaviors, but also learn interpretable and meaningful representations of complex behavioral data, including visual demonstrations. In the driving domain, we show that a model learned from human demonstrations is able to both accurately reproduce a variety of behaviors and accurately anticipate human actions using raw visual inputs. Compared with various baselines, our method can better capture the latent structure underlying expert demonstrations, often recovering semantically meaningful factors of variation in the data.

研究の動機と目的

専門家のデモンストレーションが複数の戦略にわたって潜在的なばらつきを示す場合に、模倣学習を動機づける。
GAIL を拡張してデモンストレーションの変動の潜在要因を発見し、分離する。
生の視覚入力からの学習を可能にし、意味的に有意な潜在構造を回復する。

提案手法

GAIL に、専門家ポリシーの混合 π_E = {π_E^0, π_E^1, ...} の中から選択する潜在变量 c を付与する。
I(c; τ) を、変分境界 L_I(π,Q) により近似した相互情報正則化項を導入して、c が軌道の顕著な要因を捉えるように強制する。
InfoGAIL 目的関数を最適化する： min_π,Q max_D E_π[log D(s,a)] + E_{π_E}[log(1−D(s,a))] − λ1 L_I(π,Q) − λ2 H(π)。
高価な軌道レベルの計算を避けるために、単純化した事後分布 Q(c|s,a) を用いる。
Wasserstein GAN 目的、報酬増強、分散削減手法、およびポリシー更新のための TRPO を用いて最適化を強化する。

実験結果

リサーチクエスチョン

RQ1ポリシーの潜在変数は、専門家のデモンストレーションにおける潜在的なばらつきを捉え分離することができるか？
RQ2InfoGAIL は視覚入力から監督なしで意味的に有意な変動要因（例：運転スタイル）を同定できるか？
RQ3このアプローチは生のピクセルからの学習を可能にし、運転シナリオでモード別の挙動を生み出せるか？

主な発見

InfoGAIL は、円形に似た3つの軌道が存在する合成の2Dタスクで、複数の専門家モードを識別し模倣することを学ぶ。
運転実験では、生の視覚入力で訓練した InfoGAIL が、潜在コードに対応する異なる運転挙動を高精度で再現・分離できる（例：内側レーンと外側レーンからのターン、左側と右側からの追い抜き）。
軌道の推論後方分布 Q(c|s,a) は、追い抜きで潜在コード識別の精度が81％を超え、ターンではほぼ完璧な精度を達成。
InfoGAIL は、ビヘイビア・クローンと標準の GAILより平均ロールアウト距離が大きく、報酬強化と高度な最適化の下では一部の人間デモを上回ることもある。
事前学習済み CNN 特徴（ImageNet）を用いた転移学習は、比較的少数のデモンストレーションで高次元の視覚入力からの学習を可能にするのに役立つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。