[論文レビュー] Language as an Abstraction for Hierarchical Deep Reinforcement Learning
論文は HAL(Language-based Hierarchical Abstraction)を提案する。 HAL は 階層的強化学習において高レベルと低レベルポリシーの間の抽象化として言語を用い、構成可能で指示追従型の低レベルポリシーと、言語空間で動作する高レベルポリシーを実現する。MuJoCo-CLEVR に触発された環境で検証し、非構成的な抽象化やベースラインに対して学習・一般化・スケーラビリティを向上させることを示す。
Solving complex, temporally-extended tasks is a long-standing problem in reinforcement learning (RL). We hypothesize that one critical element of solving such problems is the notion of compositionality. With the ability to learn concepts and sub-skills that can be composed to solve longer tasks, i.e. hierarchical RL, we can acquire temporally-extended behaviors. However, acquiring effective yet general abstractions for hierarchical RL is remarkably challenging. In this paper, we propose to use language as the abstraction, as it provides unique compositional structure, enabling fast learning and combinatorial generalization, while retaining tremendous flexibility, making it suitable for a variety of problems. Our approach learns an instruction-following low-level policy and a high-level policy that can reuse abstractions across tasks, in essence, permitting agents to reason using structured language. To study compositional task learning, we introduce an open-source object interaction environment built using the MuJoCo physics engine and the CLEVR engine. We find that, using our approach, agents can learn to solve to diverse, temporally-extended tasks such as object sorting and multi-object rearrangement, including from raw pixel observations. Our analysis reveals that the compositional nature of language is critical for learning diverse sub-skills and systematically generalizing to new sub-skills in comparison to non-compositional abstractions that use the same supervision.
研究の動機と目的
- 言語を階層的RLの構成可能抽象として動機づけ、長期的なスキル学習を可能にする。
- 言語指示を低レベルの指示追従ポリシーへ出力する高レベルポリシーを持つ2層の HAL フレームワークを開発。
- MuJoCo物理とCLEVR風言語を組み合わせたオープンソース環境を作成し、構成一般化を研究。
- 言語ベースの抽象化が、非構成的アプローチや標準的なHRLベースラインより一般化と効率を向上させることを示す。
提案手法
- HAL(Language-based Hierarchical Abstraction)を導入。高レベルポリシーが言語指示 g を出力し、低レベルポリシーは s および g に条件づけて行動を実行する、2層のHRL。
- 低レベルの言語条件付きポリシーを、指示関係関数 Psi(s, g) からの監督と、報酬を濃密化する再ラベリング戦略である hindsight instruction relabeling (HIR) によって訓練する。
- 環境の Omega(s) 分布から引かれた言語目標と軌跡セグメントを関連づけてリラベリングを行い、多くの言語目標から学習を可能にする。
- 高レベルポリシーを G の構造化された部分集合 I から言語指示 g を選択させるよう訓練し、問題を指示語彙の離散アクションRLへ変換する。
- 低レベルポリシーを言語を目標条件付けとして訓練し、高レベルポリシーが長期的なタスク達成のために指示の系列を学習する、2層の訓練 regime を活用する。
- HAL を DDQN、HIRO、Option-Critic と比較し、視覚ベースの長期タスクで比較し、画像ベースの観測への転移を実証する。
実験結果
リサーチクエスチョン
- RQ1HRLにおける指示追従において、言語を抽象化としたアプローチは非構成的表現とどう異なるか?
- RQ2高レベルポリシーは長期的タスクを解決するために言語指示の系列を効果的に構成できるか?
- RQ3言語の構成的構造は、未見の指示や設定への体系的一般化を可能にするか?
- RQ4 HAL は視覚ベースの観測やより多様なタスク群へどのようにスケールするか?
- RQ5長期的操作タスクにおける HAL の標準的な HRL ベースラインに対する性能はどうか?
主な発見
| 表現 | 標準訓練(平均 ± 標準偏差) | 標準テスト(平均 ± 標準偏差) | 標準ギャップ | 構成的訓練(平均 ± 標準偏差) | 構成的テスト(平均 ± 標準偏差) | 構成ギャップ |
|---|---|---|---|---|---|---|
| 言語 | 21.50 ± 2.28 | 21.49 ± 2.53 | 0.001 | 20.09 ± 2.46 | 8.13 ± 2.34 | 0.596 |
| 非構成的 | 6.26 ± 1.18 | 5.78 ± 1.44 | 0.077 | 7.54 ± 1.14 | 0.76 ± 0.69 | 0.899 |
| ランダム | 0.17 ± 0.20 | 0.21 ± 0.17 | - | 0.11 ± 0.19 | 0.18 ± 0.22 | - |
- 言語ベースの抽象は、非構成的表現やワンホット指示エンコーディングに対し、特に指示集合が拡大するほど、顕著な学習と一般化の利得をもたらす。
- hindsight instruction relabeling は低レベルポリシーの学習信号を大幅に濃密化し、効果的な指示追従学習に不可欠である。
- HAL は sparse rewards の複数タスクを解くことを学習し、state から pixel への転移を実現し、標準タスクで DDQN、HIRO、Option-Critic を上回り、高い安定性と低い分散を示す。
- 視覚ベース設定では HAL は性能とサンプル効率を維持する一方、ベースラインは学習に失敗することが多い。
- 構成的言語は体系的一般化を可能にし、言語は非構成ベースラインに比べ一般化ギャップが小さく、訓練中に見ていない指示へのゼロショット一般化がより良い。
- 環境とコード(HALデモ)はオープンソースで、CLEVRに触発された連続制御タスクを含み、構成的で長期的操作を研究する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。