[論文レビュー] Relay Policy Learning: Solving Long-Horizon Tasks via Imitation and Reinforcement Learning
Relay Policy Learning (RPL) は、構造化されていないデモからの模倣と階層的強化学習を組み合わせて長期目標のロボットタスクを解決し、その後 RL によるファインチューニングを行います。リレー・データのリラベリングを用いて二層の目標条件ポリシーを訓練し、ベースラインより性能を向上させます。
We present relay policy learning, a method for imitation and reinforcement learning that can solve multi-stage, long-horizon robotic tasks. This general and universally-applicable, two-phase approach consists of an imitation learning stage that produces goal-conditioned hierarchical policies, and a reinforcement learning phase that finetunes these policies for task performance. Our method, while not necessarily perfect at imitation learning, is very amenable to further improvement via environment interaction, allowing it to scale to challenging long-horizon tasks. We simplify the long-horizon policy learning problem by using a novel data-relabeling algorithm for learning goal-conditioned hierarchical policies, where the low-level only acts for a fixed number of steps, regardless of the goal achieved. While we rely on demonstration data to bootstrap policy learning, we do not assume access to demonstrations of every specific tasks that is being solved, and instead leverage unstructured and unsegmented demonstrations of semantically meaningful behaviors that are not only less burdensome to provide, but also can greatly facilitate further improvement using reinforcement learning. We demonstrate the effectiveness of our method on a number of multi-stage, long-horizon manipulation tasks in a challenging kitchen simulation environment. Videos are available at https://relay-policy-learning.github.io/
研究の動機と目的
- 最小限の手動タスクラベリングで多段階・長期的なロボットタスクの解決を動機づける。
- 未構造のデモから階層的ポリシーをブートストラップして、後の RL のファインチューニングを促進する。
- 高レベル・低レベルの両方のポリシー用にゴール条件付きデータセットを作成するためのリレー・データリラベリングを導入する。
- 単純なゴール条件付き報酬構造を保持しつつ、サンプル効率を改善するRLファインチューニングを可能にする。
提案手法
- 高レベルのゴール設定者と低レベルのサブゴール条件付きポリシーを備えた二層階層ポリシーを提案する。
- 高レベルの計画間隔(H)を固定にして、高レベルがHステップ分のサブゴールを設定する一方、低レベルは各ステップで行動する。
- 二つのレベルのために未構造デモからゴール条件付きデータセットを生成するリレー・データリラベリングを導入する(アルゴリズム2と3)。
- リラベリングされたデータ上で教師あり模倣学習を用いて高レベル・低レベルのポリシーを訓練し、ポリシーを初期化する(リレー模倣学習、RIL)。
- 最大尤度項を介してデモンストレーションを取り入れ、ゴール条件付き自然勾配(NPG)でポリシーをファインチューニングし、リラベリングデータを活用する(リレー強化ファインチューニング、RRF)。
- 複数のファインチューニング済み挙動を1つのマルチタスクポリシーに蒸留して、一般化能力を高める。
実験結果
リサーチクエスチョン
- RQ1未構造・未分割のデモは模倣学習を通じて効果的な階層ポリシーをブートストラップできるか?
- RQ2リレー模倣学習で得られたポリシーは、フラットなものやスクラッチで学習したポリシーより強化学習によるファインチューニングに適しているか?
- RQ3リレー・ポリシー学習は、台所のような環境で複雑な長期操作タスクを解決できるか?
- RQ4複数のファインチューニングタスクを単一のマルチタスクポリシーに蒸留して、目標を跨ぐ性能を保持できるか?
主な発見
| 手法 | 成功率(%) | 平均ステップ完了数(4中) |
|---|---|---|
| RIL (ours) | 21.7 | 2.4 ± 1.13 |
| GCBC relabeling | 8.8 | 2.2 ± 0.95 |
| GCBC no relabeling | 7.6 | 1.78 ± 1.0 |
- RIL は、ラベルなしデモンストレーションを含む場合でも、平坦なゴール条件付き模倣学習より模倣学習を改善する。
- RL ファインチューニングはリレー政策を著しく上回り、ファインチューニング時のデモンストレーションの取り込み(RRF)による顕著な利得がある。
- 蒸留ステップにより、複数の複合目標を解決できる単一のマルチタスクポリシーが得られる。
- ウィンドウサイズと報酬設計は性能に重大な影響を与える。大きいウィンドウは模倣とファインチューニングを低下させ、探索が指向されるときに sparse 報酬が最も良く機能する。
- RPL は、初期からの階層的 RL や平坦な模倣学習ベースラインを、長期キッチンタスクで上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。