[論文レビュー] SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards
SQIL は、報酬関数を学習せずオフポリシー RL 内で一定の報酬を用いる単純な模倣学習法を示し、長期の模倣を達成し、行動クローンを上回り、さまざまなタスクで GAIL と同等または競合する。
Learning to imitate expert behavior from demonstrations can be challenging, especially in environments with high-dimensional, continuous observations and unknown dynamics. Supervised learning methods based on behavioral cloning (BC) suffer from distribution shift: because the agent greedily imitates demonstrated actions, it can drift away from demonstrated states due to error accumulation. Recent methods based on reinforcement learning (RL), such as inverse RL and generative adversarial imitation learning (GAIL), overcome this issue by training an RL agent to match the demonstrations over a long horizon. Since the true reward function for the task is unknown, these methods learn a reward function from the demonstrations, often using complex and brittle approximation techniques that involve adversarial training. We propose a simple alternative that still uses RL, but does not require learning a reward function. The key idea is to provide the agent with an incentive to match the demonstrations over a long horizon, by encouraging it to return to demonstrated states upon encountering new, out-of-distribution states. We accomplish this by giving the agent a constant reward of r=+1 for matching the demonstrated action in a demonstrated state, and a constant reward of r=0 for all other behavior. Our method, which we call soft Q imitation learning (SQIL), can be implemented with a handful of minor modifications to any standard Q-learning or off-policy actor-critic algorithm. Theoretically, we show that SQIL can be interpreted as a regularized variant of BC that uses a sparsity prior to encourage long-horizon imitation. Empirically, we show that SQIL outperforms BC and achieves competitive results compared to GAIL, on a variety of image-based and low-dimensional tasks in Box2D, Atari, and MuJoCo.
研究の動機と目的
- 高次元の観測と未知のダイナミクスを持つ環境での模倣学習を動機づけ、BC に固有の分布シフトを回避する。
- 報酬関数を学習しない、単純な RL ベースの模倣法を提供する。
- 一定の報酬が demonstrated 状態の一致を促進し、オフディストリビューションのときにそれらに戻すことで長期的な模倣を促せることを示す。
- SQIL を標準的な Q- 学習またはオフポリシーアルゴリズムにわずかな修正で実装できることを示す。
提案手法
- デモンストレーション遷移に対して一定の報酬 r = +1 を割り当て、リプレイバッファを初期化する。
- 新たなエージェント相互作用データを追加し、報酬を r = 0 に設定して同じリプレイバッファに追記する。
- トレーニングバッチをデモンストレーションと新しい経験を50/50の混合でサンプリングして、安定した実効報酬を維持する。
- デモンストレーションと新しい経験に対して二乗のソフトベルマン誤差を用いたソフトQ-学習目的を最適化する。
- 潜在報酬に対するスパース性 priors を課す正則化された行動クローンの目的と等価であることを示す。
- SQIL を連続アクションに拡張し、SAC のようなオフポリシーアクター-クリティック法の上に適用する。
実験結果
リサーチクエスチョン
- RQ1報酬関数を学習せずに一定の報酬を用いた単純な RL アプローチで長期的な模倣を再現できるか?
- RQ2SQIL は BC に固有の分布シフトの問題を adversarial 学習なしに緩和できるか?
- RQ3 SQIL は画像ベースおよび低次元タスクで GAIL と競合しつつ、実装の単純さを保てるか?
- RQ4デモンストレーションデータと環境相互作用を取り入れることでポリシーは時間とともにどう変化するか?
- RQ5SQIL はオフポリシーアルゴリズムとともに連続制御設定へ適応できるか?
主な発見
- SQIL は、状態分布のシフトが生じる状況で特に、テストタスク全般において行動クローンを上回る。
- SQIL は画像ベースおよび低次元環境の範囲で GAIL と比較して競争力のある結果を達成する。
- SQIL は標準的なオフポリシーRLアルゴリズムに控えめな修正で実装でき、報酬関数を学習する必要がない。
- SQIL は Demonstrated 状態の近くを維持する行動を促し、固定報酬でデモンストレーションをリプレイすることで長期的な模倣を維持する。
- 連続制御では、SAC で実装された SQIL は強い性能を示し、デモンストレーションが少なくても機能し得る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。