QUICK REVIEW

[論文レビュー] Learning to Explore with Meta-Policy Gradient

Tian-Bing Xu, Qiang Liu|arXiv (Cornell University)|Mar 13, 2018

Reinforcement Learning in Robotics参考文献 27被引用数 26

ひとこと要約

本論文では、DDPGの独立的かつ適応的な探索方策を学習するメタ方策勾配アルゴリズムを提案する。これにより、固定ノイズ注入に依存する局所的探索を超えたグローバルな探索が可能になる。探索方策を、主なDDPG方策のパフォーマンス向上を最適化するメタ・ラーナーとして扱うことで、複数のMuJoCo制御タスクにおいて、標準的なDDPGやガウス探索を上回る著しい高いサンプル効率と優れた報酬を得る。

ABSTRACT

The performance of off-policy learning, including deep Q-learning and deep deterministic policy gradient (DDPG), critically depends on the choice of the exploration policy. Existing exploration methods are mostly based on adding noise to the on-going actor policy and can only explore \emph{local} regions close to what the actor policy dictates. In this work, we develop a simple meta-policy gradient algorithm that allows us to adaptively learn the exploration policy in DDPG. Our algorithm allows us to train flexible exploration behaviors that are independent of the actor policy, yielding a \emph{global exploration} that significantly speeds up the learning process. With an extensive study, we show that our method significantly improves the sample-efficiency of DDPG on a variety of reinforcement learning tasks.

研究の動機と目的

DDPGのようなオフポリシー強化学習手法が固定ノイズ注入（例：ガウス分布やOrnstein-Uhlenbeck過程）に依存するため、現在の状態の近傍に限局して探索されるという限界を解消する。
アクター方策とは独立して、高品質かつ多様な経験データを生成できるように適応的になる探索方策を可能にするメタ学習フレームワークを開発する。
主なDDPG方策をガイドする確率的探索方策を訓練することで、連続的制御タスクにおけるサンプル効率と学習速度を向上させる。
グローバルで方策に基づく探索が、報酬と収束速度の観点で、従来のノイズに基づく探索を上回ることを示す。

提案手法

本手法は、探索方策（教師）が、教師が収集した軌道に基づいて学習した後、主なDDPG方策（生徒）のパフォーマンス向上に基づいて最適化されるメタ方策勾配アルゴリズムを導入する。
探索方策はオンポリシー方策勾配を用いて訓練され、報酬信号は教師が収集したデータに基づいて生徒方策をファインチューニングした後の報酬向上に設定される。
教師方策は、生徒方策のパフォーマンス向上の期待値を最大化するように確率的行動を生成することで、状態空間の多様で有益な領域を探索可能になる。
生徒方策は教師が収集した経験データに基づいて訓練され、各更新後にパフォーマンスを前後で評価し、メタ最適化に用いる向上信号を計算する。
本手法は探索をアクター方策から分離することで、教師が現在の方策の行動の周囲に限らず、グローバルに探索できるようにする。
本手法はt-SNE可視化を用いて状態訪問分布を分析し、教師が多様なモードをカバーしているのに対し、生徒は補完的な領域から学習していることが示された。

実験結果

リサーチクエスチョン

RQ1メタ学習された探索方策は、オフポリシー深層強化学習において、著しくサンプル効率を向上させることができるか？
RQ2DDPGにおける固定ノイズ注入による局所的探索と比較して、学習済み教師方策によるグローバルな探索は、どのように異なるか？
RQ3教師方策は、新規で高報酬の行動を発見するのをどれほど効果的に支援できるか？
RQ4メタ方策勾配フレームワークは、生徒の学習進行に応じて適応的に改善する探索方策を可能にするか？
RQ5教師方策は、生徒の注目領域とは補完的な多様な状態領域を探索でき、より速く安定した学習を可能にするか？

主な発見

Hopper環境では、提案手法が平均報酬7718を達成したのに対し、標準的なDDPGベースラインは2795にとどまり、サンプル効率の著しい向上が確認された。
Pendulumタスクでは、200,000ステップ未満で収束し、平均報酬8530（DDPG：2830）を達成した。これは、より速く安定した学習を示している。
教師方策は高いエントロピーと多様な状態訪問パターンを示し、特にInverted Double Pendulumでは、状態空間の複数のモードをカバーしていた。これに対し、DDPGは局所的探索にとどまっていた。
生徒方策は教師とは補完的な状態領域を一貫して訪問しており、多様な行動を体系的かつ包括的に学習でき、全体のパフォーマンスの強靭性が向上した。
Reacherタスクでは、報酬はDDPGと同等であったが、分散が低く、訓練の安定性が向上していた。
t-SNE可視化により、教師がグローバルかつ多様に状態空間のモードを探索しているのに対し、生徒はこれらの多様なデモンストレーションから学習しており、優れたパフォーマンスに繋がっていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。