[論文レビュー] Goal-Conditioned Imitation Learning
この論文は goalGAIL を提案し、 hindsight relabeling を用いたゴール条件付き生成的敵対 imitatie 学習を通じてロボティクスのゴール学習を加速する方法を示す。状態のみのデモやサブ最適デモ、専門家リラベリングをデータ拡張に対応させる。
Designing rewards for Reinforcement Learning (RL) is challenging because it needs to convey the desired task, be efficient to optimize, and be easy to compute. The latter is particularly problematic when applying RL to robotics, where detecting whether the desired configuration is reached might require considerable supervision and instrumentation. Furthermore, we are often interested in being able to reach a wide range of configurations, hence setting up a different reward every time might be unpractical. Methods like Hindsight Experience Replay (HER) have recently shown promise to learn policies able to reach many goals, without the need of a reward. Unfortunately, without tricks like resetting to points along the trajectory, HER might require many samples to discover how to reach certain areas of the state-space. In this work we investigate different approaches to incorporate demonstrations to drastically speed up the convergence to a policy able to reach any goal, also surpassing the performance of an agent trained with other Imitation Learning algorithms. Furthermore, we show our method can also be used when the available expert trajectories do not contain the actions, which can leverage kinesthetic or third person demonstration. The code is available at https://sites.google.com/view/goalconditioned-il/.
研究の動機と目的
- 現実世界の RL における報酬設計の難しさと報酬なしでゴール到達を目指すポリシーの必要性を動機づける。
- 観測されたすべてのゴールを効率的に到達可能とできるゴール条件付き模倣学習フレームワークを開発する。
- デモンストレーションを活用して収束と一般化をデモンターを超えて加速させる。
- off-policy 訓練と hindsight relabeling に対応した GAIL ベースのアルゴリズム goalGAIL を導入する。
- 状態のみのデモンストレーション、運動の感覚的学習(kinesthetic)、サブ最適な専門家デモにも対応する機能を拡張する。
提案手法
- 識別子を (a, s, g) に条件付けして、エージェントがゴールに向かう遷移を生み出すと報酬を受け取るようにする。
- GAIL 目的を用いて、複合報酬 r = indicator(s'==g) および annealed log Dψ(a,s,g) の項を組み合わせたオフポリシーアルゴリズム(DDPG)でポリシーを訓練する。
- expert relabeling を導入: 専門家の遷移を future goals s(t+k) でリラベルして、少数のデモからの監督信号を増やす。
- goalGAIL を提案:GAIL と Hindsight Experience Replay (HER) を組み合わせ、ゴール条件付きタスクから学習できるようにする。
- 状態のみのデモンストレーションを許可:識別子の行動を次の状態に置換することで、運動感覚学習や三人称デモからの学習を可能にする。
- デモンストレーションが不足している場合にデータを増強する新しいリラベルリング方式を提供する。
実験結果
リサーチクエスチョン
- RQ1goalGAIL はゴール条件付き学習を加速し、明示的な報酬監督なしにデモンストレータよりも優れているか。
- RQ2専門家リラベリングはデータ効率と最終性能をゴール条件付きタスク全般で改善するか。
- RQ3goalGAIL はサブ最適な専門家に対して堅牢で、状態のみのデモにも適用できるか。
- RQ4状態のみのデモと完全な状態-行動デモ間でゴール条件付きポリシーの指針性能はどう異なるか。
主な発見
- goalGAIL は一貫して HER より速く収束し、4つの連続 MuJoCo タスクで naive なゴール条件付き GAIL より最終性能が優れている。
- 専門家リラベリングは BC、BC+HER、goalGAIL の最終性能を環境全体で大幅に向上させる。
- GAIL ベースの手法はサブ最適な専門家に対して堅牢で、ノイズの多いデモンストレーション設定で純粋な BC を上回る。
- 状態のみのデモはほとんどのタスクで BC+HER や完全な Action を用いた GAIL より優れており、利用可能な supervision の柔軟性を示す。
- goalGAIL はデモンストレーションを活用しつつ hindsight relabeling とオフポリシー学習の恩恵を受けて baselines を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。