QUICK REVIEW

[論文レビュー] Generative Adversarial Imitation Learning

Jonathan Ho, Stefano Ermon|arXiv (Cornell University)|Jun 10, 2016

Reinforcement Learning in Robotics参考文献 21被引用数 369

ひとこと要約

モデルフリーの模倣学習アルゴリズムを、生成的敵対ネットワーク（GAN）に触発されて導入し、強化信号や専門家との対話なしに専門家のデモからポリシーを直接学習します。模倣をGAN風の設定による占有度測定の一致としてフレーミングし、高次元制御タスクで高い性能を達成します。

ABSTRACT

Consider learning a policy from example expert behavior, without interaction with the expert or access to reinforcement signal. One approach is to recover the expert's cost function with inverse reinforcement learning, then extract a policy from that cost function with reinforcement learning. This approach is indirect and can be slow. We propose a new general framework for directly extracting a policy from data, as if it were obtained by reinforcement learning following inverse reinforcement learning. We show that a certain instantiation of our framework draws an analogy between imitation learning and generative adversarial networks, from which we derive a model-free imitation learning algorithm that obtains significant performance gains over existing model-free methods in imitating complex behaviors in large, high-dimensional environments.

研究の動機と目的

専門家の軌跡データから直接ポリシーを学習する動機づけを行い、専門家への問いかけや強化信号を使用しない。
中間段階として逆強化学習を回避する、スケーラブルな模倣学習フレームワークを開発する。
敵対的訓練を活用して学習者の状態-行動の占有を専門家の占有と一致させる。
高次元環境で既存のモデルフリー模倣法よりも性能向上を示す。

提案手法

占有度測定間の Jensen-Shannon 発散を最小化することと因果エントロピー正則化項を加えた模倣の定式化。
凹共役がソフトな占有度測定一致目的を導く正則化項 psi_GA を導入する。
学習者と専門家の遷移を識別する識別器 D の訓練と log(D) をコストとして用いた TRPO似のステップでポリシー π を更新する、実用的なアルゴリズム（Generative Adversarial Imitation Learning）を導出する。
学習者の占有を生成器分布、専門家の占有をターゲット分布として扱うことでアルゴリズムをGANsに結びつける。
ポリシーと識別器の双方にニューラルネットワークのパラメータを用い、D には Adam 更新を、ポリシーには KL 制約つき自然勾配ステップを適用する。

実験結果

リサーチクエスチョン

RQ1IRLや強化信号を用いずに、専門家の軌跡から直接ポリシー学習を達成できるか？
RQ2高次元で連続制御タスクへスケールし、既存のベースラインを凌ぐモデルフリー模倣手法は存在するか？
RQ3敵対的訓練目標は伝統的な徒弟訓練法より専門家への占有一致をより近づけるか？

主な発見

提案手法 Generative Adversarial Imitation Learning (GAIL) は、いくつかの物理ベースの制御タスクで行動クローン法、FEM、GTAL よりも優れている。
GAIL は、CartPole、Acrobot、Mountain Car などの古典的制御タスクで、データセットサイズの範囲にわたりほぼエキスパート性能を達成。
MuJoCo環境のいくつかで、GAILはベースラインより大きな性能向上を提供し、しばしばエキスパート性能のかなりの割合に達する。
いくつかのタスク（例: Reacher）では因果エントロピー正則化がサンプル効率の追加的改善をもたらす。
GAILは占有度測定間の真の距離（JS 発散）を直接最小化し、線形または凸なコスト関数クラスに依存せず、専門家により近い模倣を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。