QUICK REVIEW

[論文レビュー] FeUdal Networks for Hierarchical Reinforcement Learning

Alexander Sasha Vezhnevets, Simon Osindero|arXiv (Cornell University)|Mar 3, 2017

Reinforcement Learning in Robotics被引用数 252

ひとこと要約

FeUdal Networks (FuN) は、低速のタイムスケールで方向性の潜在ゴールを設定する Manager と、各ティックで原始的な行動を実行する Worker という二層の階層を導入し、長期的なクレジット割り当てと記憶を改善するために遷移ポリシー勾配と内発的報酬で学習する。

ABSTRACT

We introduce FeUdal Networks (FuNs): a novel architecture for hierarchical reinforcement learning. Our approach is inspired by the feudal reinforcement learning proposal of Dayan and Hinton, and gains power and efficacy by decoupling end-to-end learning across multiple levels -- allowing it to utilise different resolutions of time. Our framework employs a Manager module and a Worker module. The Manager operates at a lower temporal resolution and sets abstract goals which are conveyed to and enacted by the Worker. The Worker generates primitive actions at every tick of the environment. The decoupled structure of FuN conveys several benefits -- in addition to facilitating very long timescale credit assignment it also encourages the emergence of sub-policies associated with different goals set by the Manager. These properties allow FuN to dramatically outperform a strong baseline agent on tasks that involve long-term credit assignment or memorisation. We demonstrate the performance of our proposed system on a range of tasks from the ATARI suite and also from a 3D DeepMind Lab environment.

研究の動機と目的

強化学習における長期的なクレジット割り当てと記憶の課題を動機づけ、解決する。
レベルと時間スケールを分離して学習を分離する階層的で微分可能なアーキテクチャを提案する。
Manager のゴールに意味を与える新しい遷移ポリシー勾配更新を導入する。
方向性ゴールと Worker の内発的動機づけを通じて再利用可能なサブポリシーの出現を促進する。
ATARI および 3D DeepMind Lab のタスクで強力なベースラインに対して実証的な利点を示す。

提案手法

目標を設定する Manager と、これらのゴールに条件づけられて行動する Worker を持つ二レベルの FuN アーキテクチャ。
Manager は低い時間解像度で動作し、長期的メモリを維持するために拡張LSTM（dilated LSTM）を使用する。
Worker は Manager のゴールに従う intrinsic reward を受け取り、Advantage Actor-Critic 更新を用いる。
ゴールは低次元空間に埋め込まれ、乗算的相互作用を通じて Worker ポリシーを調整する。
Manager の学習は、潜在状態遷移のコサイン類似度に基づく概算遷移ポリシー勾配に従う。
Worker の intrinsic reward は、ゴール方向への進行を促すようにコサイン類似度の走行平均である。
遷移モデルの仮定は、Manager の勾配更新を正当化するために von Mises-Fisher 指向分布を用いる。

実験結果

リサーチクエスチョン

RQ1階層的で微分可能な FuN アーキテクチャは、強化学習タスクにおける長期的なクレジット割り当てと記憶を改善できるか。
RQ2方向性のある潜在ゴールとデカップルド学習は、時刻スケールをまたいで解釈可能なサブポリシーを生み出し、転移するか。
RQ3遷移ポリシー勾配は、 Manager が外部報酬を最適化するための意味のある訓練信号を提供するか。
RQ4Worker が Manager のゴールを効果的に実現するには内発的動機づけが不可欠か。
RQ5FuN は強力な LSTM ベースラインおよび Atari と DeepMind Lab のタスクでエンドツーエンドのオプションベース手法とどう比較されるか。

主な発見

FuN は Montezuma’s Revenge を含む Atari ゲームと DeepMind Lab タスクで長期的なクレジット割り当てと記憶を大幅に改善する。
Manager は Worker を内発的報酬で導く意味のある方向性のあるサブゴールを学習する。
FuN は複数の Atari ゲームと Memory タスクで LSTM ベースラインを上回り、特に長い BPTT 展開が用いられる場合に顕著。
Manager の dilated LSTM (dLSTM) は数百の時間ステップにわたる勾配を可能にし、長期計画を support する。
アブレーション研究は、遷移ポリシー勾配、方向性ゴール、内発的動機づけが性能にとって重要であることを示している。
FuN の Manager-Worker の分離は、遷移ポリシーを embodiment やアクションリピート間で移行させる可能性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。