QUICK REVIEW

[論文レビュー] Latent Space Policies for Hierarchical Reinforcement Learning

Tuomas Haarnoja, Kristian Hartikainen|arXiv (Cornell University)|Apr 9, 2018

Reinforcement Learning in Robotics参考文献 34被引用数 73

ひとこと要約

本論文は潜在変数を用いた可逆ポリシー層を階層的深層強化学習に導入し、最大エントロピー目的で訓練することで、上位層が潜在空間を介して下位層を制御し、連続制御タスクで性能向上を実現する。

ABSTRACT

We address the problem of learning hierarchical deep neural network policies for reinforcement learning. In contrast to methods that explicitly restrict or cripple lower layers of a hierarchy to force them to use higher-level modulating signals, each layer in our framework is trained to directly solve the task, but acquires a range of diverse strategies via a maximum entropy reinforcement learning objective. Each layer is also augmented with latent random variables, which are sampled from a prior distribution during the training of that layer. The maximum entropy objective causes these latent variables to be incorporated into the layer's policy, and the higher level layer can directly control the behavior of the lower layer through this latent space. Furthermore, by constraining the mapping from latent variables to actions to be invertible, higher layers retain full expressivity: neither the higher layers nor the lower layers are constrained in their behavior. Our experimental evaluation demonstrates that we can improve on the performance of single-layer policies on standard benchmark tasks simply by adding additional layers, and that our method can solve more complex sparse-reward tasks by learning higher-level policies on top of high-entropy skills optimized for simple low-level objectives.

研究の動機と目的

上位層が下位層を損なわないよう階層的RLを動機づけ、各層が直接タスクを解決しつつ多様な戦略を提供できるようにする。
上位層が可逆写像を通じて下位層に影響を与える潜在変数ポリシーフレームワークを開発する。
最大エントロピーRLと正規化フローに基づく潜在空間から行動への変換を用いて、安定で拡張可能な訓練を実現する。
層を追加することで標準ベンチマークでの性能が向上し、疎報酬タスクの解法が可能になることを示す。

提案手法

RLを最大エントロピー推論として定式化し、潜在変数を補助して階層的ポリシーを作る。
状態を条件として潜在変数から行動へ写像する可逆的ニューラルネット変換（実数値非体積保存変換）を用いる。
下から上へ層を訓練し、各層は自分の潜在変数を用いたポリシーを学習しつつ、上の層の行動空間として潜在空間を提供する。
各学習済み変換を環境に埋め込み、ダイナミクスを再定義し、後続の層がより高次の行動で動作できるようにする。
下層の学習を単純化するためにシェイピング報酬を用いることができ、上位の目的はエントロピーベースの探索を保つ。
堅牢でサンプル効率の高い訓練のためにSoft Actor-Critic (SAC)を用いる。

実験結果

リサーチクエスチョン

RQ1潜在変数・可逆ポリシ層は連続制御タスクの学習効率と最終的な性能を改善できるか？
RQ2潜在空間ポリシーのボトムアップの層別訓練はエンドツーエンド訓練より階層RLの成果を上回るか？
RQ3疎報酬設定で下層へシェイピング報酬を提供すると高位ポリシーの学習にどう影響するか？
RQ4潜在空間を介して高位ポリシーが下位の挙動をどの程度制御できるか？
RQ5このアプローチは深い階層と高次元制御問題に対してスケーラブルか？

主な発見

潜在空間階層ポリシーは高次元タスクを含む連続制御ベンチマークで最先端の性能を達成した。
ボトムアップの層別学習で訓練された二層ポリシーは単一層ポリシーを上回り、エンドツーエンドの深いポリシーと良い比較を示した。
層を追加するとAntやHumanoidのような困難なタスクの性能が大幅に向上する。
下位層のシェイピング報酬は疎報酬タスクの解決を助ける一方、可逆変換により上位層によって制御可能である。
この方法はサンプル効率とロバストな学習を複数の環境で示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。