QUICK REVIEW

[論文レビュー] SQIL: Imitation Learning via Regularized Behavioral Cloning.

Siddharth Reddy, Anca D. Dragan|arXiv (Cornell University)|May 27, 2019

Reinforcement Learning in Robotics参考文献 13被引用数 33

ひとこと要約

本稿では、示された状態行動ペアに対して定数+1の報酬を、それ以外の場合は0とする報酬フリーな強化学習手法であるSoft Q Imitation Learning (SQIL)を提案する。この手法により、報酬関数の学習を必要とせず、安定した長時間にわたる模倣学習が可能となり、画像ベースおよび連続的制御タスクにおいて、GAILと同等の性能を達成し、BCよりも優れた性能を示す。

ABSTRACT

Learning to imitate expert behavior from demonstrations can be challenging, especially in environments with high-dimensional, continuous observations and unknown dynamics. Supervised learning methods based on behavioral cloning (BC) suffer from distribution shift: because the agent greedily imitates demonstrated actions, it can drift away from demonstrated states due to error accumulation. Recent methods based on reinforcement learning (RL), such as inverse RL and generative adversarial imitation learning (GAIL), overcome this issue by training an RL agent to match the demonstrations over a long horizon. Since the true reward function for the task is unknown, these methods learn a reward function from the demonstrations, often using complex and brittle approximation techniques that involve adversarial training. We propose a simple alternative that still uses RL, but does not require learning a reward function. The key idea is to provide the agent with an incentive to match the demonstrations over a long horizon, by encouraging it to return to demonstrated states upon encountering new, out-of-distribution states. We accomplish this by giving the agent a constant reward of r=+1 for matching the demonstrated action in a demonstrated state, and a constant reward of r=0 for all other behavior. Our method, which we call soft Q imitation learning (SQIL), can be implemented with a handful of minor modifications to any standard Q-learning or off-policy actor-critic algorithm. Theoretically, we show that SQIL can be interpreted as a regularized variant of BC that uses a sparsity prior to encourage long-horizon imitation. Empirically, we show that SQIL outperforms BC and achieves competitive results compared to GAIL, on a variety of image-based and low-dimensional tasks in Box2D, Atari, and MuJoCo.

研究の動機と目的

高次元で連続的な観測空間において、誤差の蓄積によるポリシーのずれが生じる行動コーディングにおける分布シフトを是正すること。
模倣学習における複雑な報酬関数の学習を不要にし、壊れやすい敵対的訓練や報酬近似を回避すること。
唯一の示唆データと標準的な非政策強化学習アルゴリズムのみを用いて、長時間にわたる模倣学習を可能にする手法を開発すること。
理論的裏付けのある正則化付き行動コーディングの変種を提供し、状態行動分布の一致を促進すること。
GAILなどの最先端手法と同等の性能を達成するが、より単純で安定性に優れた手法を実現すること。

提案手法

SQILは、エージェントの状態行動ペアが示唆された状態行動ペアと一致する場合にのみ報酬 r = +1 を与え、それ以外の場合は r = 0 とする。
この報酬信号を標準的なQ学習または非政策アクタークリティックフレームワークに統合し、わずかな修正で実装可能である。
報酬信号はスパarsityの事前分布として機能し、ポリシーが示唆された状態に戻ることを促進し、分布シフトを低減する。
敵対的訓練や報酬関数の推定を回避することで、SQILは訓練プロセスを単純化しながらも、性能を維持する。
このアプローチは、正則化付き行動コーディングの一種と解釈され、正則化が長時間にわたる模倣を促進する。
本手法は離散的および連続的制御タスクの両方と互換性があり、画像ベースの観測にも対応する。

実験結果

リサーチクエスチョン

RQ1高次元で連続的な制御環境において、単純な報酬フリーな模倣学習手法が、標準的な行動コーディングを上回ることができるか？
RQ2示唆された状態行動ペアに対して定数報酬を与えることで、分布シフトが効果的に低減され、長時間にわたる性能が向上するか？
RQ3敵対的報酬学習や複雑な報酬関数近似を必要とせず、GAILと同等の性能を達成できるか？
RQ4Box2D、Atari、MuJoCoなどの多様な環境において、SQILはBCおよびGAILと比較してどのように性能を発揮するか？
RQ5ピクセル入力などを含む、観測モalityが異なるタスクにおいても、SQILは頑健かつ汎用的か？

主な発見

SQILは、評価されたすべてのタスクで標準的な行動コーディングを上回り、ポリシーのずれが低減され、サンプル効率が向上している。
SQILは、Box2D、Atari、MuJoCoの画像ベースおよび低次元制御タスクにおいて、GAILと同等の性能を達成している。
高次元観測、特にピクセル入力が用いられる環境では、BCに対するSQILの改善が一貫して見られる。
敵対的訓練や報酬関数の学習を必要としないため、訓練プロセスが単純で安定している。
定数報酬機構により、エージェントが示唆された状態に戻ることを効果的に促進し、分布シフトを緩和している。
実験的結果から、SQILが多様な環境、特に離散的および連続的制御設定において、良好に一般化していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。