QUICK REVIEW

[論文レビュー] Meta-Reinforcement Learning of Structured Exploration Strategies

Abhishek Gupta, Russell Mendonca|arXiv (Cornell University)|Feb 20, 2018

Reinforcement Learning in Robotics参考文献 30被引用数 180

ひとこと要約

MAESNを導入した、学習された潜在空間を通じて学習される構造化された時間的一貫性のある探索を行う勾配ベースのメタRL手法で、新しいタスクへの迅速な適応を可能にします。ロボティクスとロコモーションタスクにおいて、以前のメタRL手法やタスク非依存探索と比較して探索と適応の改善を示します。

ABSTRACT

Exploration is a fundamental challenge in reinforcement learning (RL). Many of the current exploration methods for deep RL use task-agnostic objectives, such as information gain or bonuses based on state visitation. However, many practical applications of RL involve learning more than a single task, and prior tasks can be used to inform how exploration should be performed in new tasks. In this work, we explore how prior tasks can inform an agent about how to explore effectively in new situations. We introduce a novel gradient-based fast adaptation algorithm -- model agnostic exploration with structured noise (MAESN) -- to learn exploration strategies from prior experience. The prior experience is used both to initialize a policy and to acquire a latent exploration space that can inject structured stochasticity into a policy, producing exploration strategies that are informed by prior knowledge and are more effective than random action-space noise. We show that MAESN is more effective at learning exploration strategies when compared to prior meta-RL methods, RL without learned exploration strategies, and task-agnostic exploration methods. We evaluate our method on a variety of simulated tasks: locomotion with a wheeled robot, locomotion with a quadrupedal walker, and object manipulation.

研究の動機と目的

メタRLにおいて、複数の関連する事前タスクを活用することで探索の改善を動機づける。
探索に構造化された確率性を注入する勾配ベースの適応手法を開発する。
ポリシー勾配更新と学習済み潜在探索空間を通じて新しいタスクへの高速適応を可能にする。
構造化ノイズが、ランダムな行動空間ノイズよりも整合性のある探索をもたらすことを示す。
多様なロボティクス分野で、MAESNを従来のメタRL手法およびタスク非依存探索と比較する。

提案手法

MAESNを提案し、構造化された潜在空間ノイズとMAML風の勾配適応を組み合わせる。
探索を、学習可能なガウス分布から引かれたエピソードごとの潜在変数zに条件づけられたポリシーとして表現し、時間的に一貫した探索を可能にする。
ポリシー参数とタスクごとの潜在パラメータをメタ訓練して更新後の報酬を最大化し、単位ガウス事前分布へのKL正則化を適用する。
内ループ: 潜在パラメータを更新し、必要に応じてポリシー parametersをポリシー勾配で更新する。外ループ: TRPOを用いたメタ更新。
適応中のzサンプリングを微分可能にするため、リパラメータization法または尤度比法を用いる。
manipulation and locomotion tasksで、MAML、RL2、潜在空間ベースライン、およびゼロからの訓練と比較して評価する。

実験結果

リサーチクエスチョン

RQ1メタ学習された構造化探索戦略は、連続報酬が sparse の新しいタスクへの整合性のある探索と迅速な適応を可能にするか？
RQ2MAESNは、従来のメタRL手法（例：MAML、RL2）および潜在空間ベースラインを上回り、探索を学習できるか？
RQ3MAESN訓練済みポリシーが示す探索戦略はどのようなものか、ベースラインと視覚的にどう比較されるか？
RQ4MAESNのどの構成要素（潜在空間、メタ訓練目的、勾配更新）が性能にとって重要か？

主な発見

MAESNは、エピソードごとの潜在変数に基づいて行動を条件付けることで時間的一貫性のある探索を学習し、ベースラインより探索を改善する。
MAESNは、報酬がまばらな新規タスクへの適応を迅速に行い、いくつかの領域でMAMLおよびRL2を上回る。
潜在空間のメタ訓練は効果的な適応を可能にし、潜在空間のみのアプローチを上回る。
MAESNによる探索軌道は、ランダム探索やMAMLよりタスク分布により適合した一貫した挙動を含む。
更新前の潜在パラメータはpriorに向かって収束し、更新後のパラメータはタスク特異的な領域へ移動し、効果的な適応を可能にする。
構造化ノイズは、時間的不変の行動ノイズを超えて、多様でタスクに関連する戦略を探索するのに不可欠である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。