QUICK REVIEW

[論文レビュー] Learning Self-Imitating Diverse Policies

Tanmay Gangwani, Qiang Liu|arXiv (Cornell University)|May 25, 2018

Reinforcement Learning in Robotics参考文献 49被引用数 26

ひとこと要約

本論文は、自己生成された高報酬軌道からの経験リプレイと、方策の状態行動訪問確率とその高報酬軌道との間のジェンセン・シャノン発散を最小化することで、スパarsな報酬環境やエピソード的報酬環境における深層強化学習の性能を向上させる自己模倣学習アルゴリズムを提案する。この手法は、自己生成されたデモから密度の高い報酬を形状付け、信用配分を効率化する。さらに、スパム・バリアンス・ポリシー勾配とJSカーネルを組み合わせて、多様な方策を学習し、スパース報酬を伴う困難なMuJoCo走破タスクにおいて、ベースラインを著しく上回る性能を達成する。

ABSTRACT

The success of popular algorithms for deep reinforcement learning, such as policy-gradients and Q-learning, relies heavily on the availability of an informative reward signal at each timestep of the sequential decision-making process. When rewards are only sparsely available during an episode, or a rewarding feedback is provided only after episode termination, these algorithms perform sub-optimally due to the difficultly in credit assignment. Alternatively, trajectory-based policy optimization methods, such as cross-entropy method and evolution strategies, do not require per-timestep rewards, but have been found to suffer from high sample complexity by completing forgoing the temporal nature of the problem. Improving the efficiency of RL algorithms in real-world problems with sparse or episodic rewards is therefore a pressing need. In this work, we introduce a self-imitation learning algorithm that exploits and explores well in the sparse and episodic reward settings. We view each policy as a state-action visitation distribution and formulate policy optimization as a divergence minimization problem. We show that with Jensen-Shannon divergence, this divergence minimization problem can be reduced into a policy-gradient algorithm with shaped rewards learned from experience replays. Experimental results indicate that our algorithm works comparable to existing algorithms in environments with dense rewards, and significantly better in environments with sparse and episodic rewards. We then discuss limitations of self-imitation learning, and propose to solve them by using Stein variational policy gradient descent with the Jensen-Shannon kernel to learn multiple diverse policies. We demonstrate its effectiveness on a challenging variant of continuous-control MuJoCo locomotion tasks.

研究の動機と目的

報酬がスパースまたはエピソード的である場合の強化学習における低いサンプル効率と信用配分の問題に対処すること。
自己生成された高報酬軌道を暗黙のデモとして活用することで、スパース報酬設定における方策勾配法の性能を向上させること。
単一のポリシーに限定された自己模倣の限界を克服し、探索を促進し局所最適解を避けるために、方策間の多様性を促進すること。
連続的制御タスクに適したスケーラブルで、集団ベースの自己模倣と多様性正則化を組み合わせた手法を開発すること。

提案手法

現在の方策の状態行動訪問確率と、高報酬経験リプレイ軌道のそれとの間のジェンセン・シャノン発散を最小化する形で方策最適化を定式化する。
自己生成されたエキスパート軌道から導出された形状された密度の高い報酬を用いて、発散最小化問題を方策勾配更新に還元する。
エージェントが自身の過去に高いパフォーマンスを発揮したロールアウトを模倣する自己模倣メカニズムを導入し、内在的な密度の高い監督信号を効果的に生成する。
スパム・バリアンス・ポリシー勾配（SVPG）にジェンセン・シャノンカーネルを組み合わせ、アンサンブル内の複数のポリシー間の多様性を明示的に促進する。
方策訪問確率分布間のJS発散に基づく反発項を用いて、異なる行動を示す多様な行動空間での探索を促進する。
複数エージェントのアンサンブル設定で手法を適用し、各エージェントが集団の経験と多様性から学習する。

実験結果

リサーチクエスチョン

RQ1自己生成された高報酬軌道を用いた自己模倣は、報酬がスパースな強化学習におけるサンプル効率を向上させることができるか？
RQ2形状された報酬を用いた自己模倣は、密度の高い報酬環境とスパース報酬環境の両方において、標準的な方策勾配法と比較してどのように性能を発揮するか？
RQ3ポリシー空間におけるカーネルベースの反発項を用いて、方策間の多様性を効果的に誘導できるか？
RQ4自己模倣と多様性学習を組み合わせることで、困難な探索タスクにおける収束速度とパフォーマンスが向上するか？

主な発見

提案された自己模倣アルゴリズムは、密度の高い報酬環境では標準的な方策勾配法と同等の性能を達成するが、スパースかつエピソード的報酬環境では著しく優れている。
Maze環境では、SI-interact-JSは複数のエージェントが探索を進め、高報酬の緑色ゾーンに到達するが、SI-independentおよびPPO-independentエージェントは目的に到達できない。
SparseHopperおよびSparseHalfCheetahにおいて、SI-interact-JSはSI-independentが行動空間のノイズのみに依存し、効果的な探索ができないのと対照的に、はやく hopping や前進運動の行動を発見する。
SI-interact-JSにおけるJSカーネルの使用は、ポリシー対間のJS発散が高くなる（軌行列のセルが明るくない）ことから、顕著に多様なポリシーを生成していることが示されている。
JSカーネルの代わりにRBFカーネルを使用したSI-interact-RBFは性能が劣るため、JSカーネルがポリシー訪問確率分布における意味のある多様性を促進するのに適していることが示された。
PPO-independentエージェントは、エネルギーペナルティを避けるために立ち尽くすなど、局所最適解に陥るが、SI-interact-JSは多様な行動を積極的に探索することでこれを回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。