Skip to main content
QUICK REVIEW

[論文レビュー] V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control

Hao Song, Abbas Abdolmaleki|arXiv (Cornell University)|Sep 26, 2019
Reinforcement Learning in Robotics参考文献 33被引用数 39
ひとこと要約

V-MPO は、学習済みの状態価値関数を用いてポリシー反復を実行する、MPO のオンポリシー適応であり、エントロピー正則化や集団ベースのチューニングなしで、離散・連続制御の両方で強力な結果を達成する。

ABSTRACT

Some of the most successful applications of deep reinforcement learning to challenging domains in discrete and continuous control have used policy gradient methods in the on-policy setting. However, policy gradients can suffer from large variance that may limit performance, and in practice require carefully tuned entropy regularization to prevent policy collapse. As an alternative to policy gradient algorithms, we introduce V-MPO, an on-policy adaptation of Maximum a Posteriori Policy Optimization (MPO) that performs policy iteration based on a learned state-value function. We show that V-MPO surpasses previously reported scores for both the Atari-57 and DMLab-30 benchmark suites in the multi-task setting, and does so reliably without importance weighting, entropy regularization, or population-based tuning of hyperparameters. On individual DMLab and Atari levels, the proposed algorithm can achieve scores that are substantially higher than has previously been reported. V-MPO is also applicable to problems with high-dimensional, continuous action spaces, which we demonstrate in the context of learning to control simulated humanoids with 22 degrees of freedom from full state observations and 56 degrees of freedom from pixel observations, as well as example OpenAI Gym tasks where V-MPO achieves substantially higher asymptotic scores than previously reported.

研究の動機と目的

  • オンポリシー強化学習におけるポリシー勾配法に伴う分散および不安定性を低減する動機づけ。
  • 学習済みの状態価値関数を活用したポリシー反復を利用する、オンポリシー MPO ベースのアルゴリズムを開発する。
  • 追加の正則化や集団ベースのチューニングなしで、離散・連続制御ベンチマーク全体で高い性能を示す。

提案手法

  • V-MPO を、Maximum a Posteriori Policy Optimization のオンポリシー適応として提案する。
  • 学習済みの状態価値関数に導かれたポリシー反復を使用する。
  • エントロピー正則化や重要度重み付けを避けつつ、安定した学習を維持する。
  • 高次元のタスクを含む、離散・連続のアクション空間の両方で方法が機能することを示す。

実験結果

リサーチクエスチョン

  • RQ1V-MPO は、以前のオンポリシー手法と比較して、離散および連続制御ベンチマークでどのように性能を示すか?
  • RQ2V-MPO はエントロピー正則化、重要度重み付け、または集団ベースのハイパーパラメータ調整なしで高い性能を達成できるか?
  • RQ3V-MPO は高次元のアクション空間とピクセルベースの観測へどれだけスケールするか?
  • RQ4マルチタスクおよびシングルタスク設定の Atari-57, DMLab-30, OpenAI Gym タスクでの実証的利益はどれほどか?

主な発見

  • V-MPO はマルチタスク設定で Atari-57 および DMLab-30 の以前に報告されたスコアを上回る。
  • この手法は重要度重み付け、エントロピー正則化、または集団ベースのハイパーパラメータ調整なしでこれらの結果を達成する。
  • 個々の DMLab および Atari レベルでは、以前報告されたスコアより大幅に高い。
  • V-MPO は高次元の連続アクション空間に適用可能であり、全身の状態観測およびピクセル観測を用いた humanoids に対して実証された。
  • OpenAI Gym タスクは、以前報告されたものより実質的に高い漸近的スコアを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。