Skip to main content
QUICK REVIEW

[論文レビュー] Meta Learning Shared Hierarchies

Kevin Frans, Jonathan Ho|arXiv (Cornell University)|Oct 26, 2017
Reinforcement Learning in Robotics参考文献 8被引用数 116
ひとこと要約

MLSH はタスク分布全体で共有サブポリシー(プリミティブ)の集合を学習し、マスターポリシーを訓練してこれらのプリミティブの間を切り替えることで新しいタスクへ迅速に適応し、未見タスクでのサンプル効率を向上させる。

ABSTRACT

We develop a metalearning approach for learning hierarchically structured policies, improving sample efficiency on unseen tasks through the use of shared primitives---policies that are executed for large numbers of timesteps. Specifically, a set of primitives are shared within a distribution of tasks, and are switched between by task-specific policies. We provide a concrete metric for measuring the strength of such hierarchies, leading to an optimization problem for quickly reaching high reward on unseen tasks. We then present an algorithm to solve this problem end-to-end through the use of any off-the-shelf reinforcement learning method, by repeatedly sampling new tasks and resetting task-specific policies. We successfully discover meaningful motor primitives for the directional movement of four-legged robots, solely by interacting with distributions of mazes. We also demonstrate the transferability of primitives to solve long-timescale sparse-reward obstacle courses, and we enable 3D humanoid robots to robustly walk and crawl with the same policy.

研究の動機と目的

  • 関連タスクの分布でサブポリシー(プリミティブ)を再利用して素早く学習する動機づけ。
  • 共有サブポリシーの中からマスターポリシーが選択して迅速な適応を促進する階層を定義する。
  • 新しいタスクでの迅速な学習を可能にする階層を促進する最適化目的を定式化する。
  • プリミティブを学習するためにウォームアップとジョイントアップデート段階を交互に繰り返すエンドツーエンドのMLS Hアルゴリズムを提案する。
  • 2D、3D、および物理ベースの環境にわたる転移性とスケーラビリティを示す。

提案手法

  • サブポリシーの集合を共有する a8phibc; 各サブポリシーはプリミティブポリシーを定義する。
  • マスターポリシー b8 を使い、Nタイムステップごとにどのサブポリシーを有効にするかを選択する。
  • ウォームアップ段階ではサブポリシーを固定したままマスターポリシーを最適化する。
  • ジョイントアップデート段階では環境からの経験を用いてマスターポリシーとサブポリシーの両方を更新する。
  • マスターポリシーの決定をより遅いタイムスケールの行動として、サブポリシーを実行可能なプリミティブとして扱う。

実験結果

リサーチクエスチョン

  • RQ1タスク分布から意味のある再利用可能なサブポリシーを発見するメタ学習フレームワークは実現できるか?
  • RQ2多様な環境でMLS Hの学習は、単一の共有ポリシーや非階層的ベースラインを上回るか?
  • RQ3発見されたプリミティブは長い時間的視点のタスクやスパース報酬タスクに転移するか?
  • RQ4ウォームアップ期間がサブポリシーの学習の質と速度にどう影響するか?
  • RQ5MLSHは複雑な3D物理タスクへスケールし、新しい移動行動を可能にするか?

主な発見

  • MHLSは迷路のようなタスクおよび3D移動シナリオにおいて、意味のある方向性移動プリミティブをエージェントに学習させる。
  • サブポリシーを用いたマスターポリシーの訓練は、ゼロから単一ポリシーを学習する場合と比べ学習を加速させる。
  • MLSHは学習したプリミティブをスパース報酬の障害物コースタスクへ転移させ、素朴なPPOが苦戦する場面で効果を示す。
  • 物理環境では多様なサブポリシーが出現し、同じプリミティブセットで歩行や這い行動を可能にする。
  • 解決不能なスパース環境では、MLSHはサブポリシー上での探索を可能にし、転送されたプリミティブを介して報酬の回復を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。