Skip to main content
QUICK REVIEW

[論文レビュー] Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

Yuhuai Wu, Elman Mansimov|arXiv (Cornell University)|Aug 17, 2017
Reinforcement Learning in Robotics参考文献 22被引用数 470
ひとこと要約

ACKTR は Kronecker-factored アプローチの近似曲率と信頼域自然勾配を actor-critic 法に適用し、Atari と MuJoCo でサンプル効率を 2-3 倍改善し、生のピクセル入力からの学習を可能にします。

ABSTRACT

In this work, we propose to apply trust region optimization to deep reinforcement learning using a recently proposed Kronecker-factored approximation to the curvature. We extend the framework of natural policy gradient and propose to optimize both the actor and the critic using Kronecker-factored approximate curvature (K-FAC) with trust region; hence we call our method Actor Critic using Kronecker-Factored Trust Region (ACKTR). To the best of our knowledge, this is the first scalable trust region natural gradient method for actor-critic methods. It is also a method that learns non-trivial tasks in continuous control as well as discrete control policies directly from raw pixel inputs. We tested our approach across discrete domains in Atari games as well as continuous domains in the MuJoCo environment. With the proposed methods, we are able to achieve higher rewards and a 2- to 3-fold improvement in sample efficiency on average, compared to previous state-of-the-art on-policy actor-critic methods. Code is available at https://github.com/openai/baselines

研究の動機と目的

  • 深層強化学習における標準の SGD ベースの更新を超えたサンプル効率の向上を動機づける。
  • 大規模な actor-critic モデルに適したスケーラブルな自然勾配法を開発する。
  • Kronecker-factored curvature を拡張して actor と critic の両方を共同最適化する。
  • 離散・連続制御タスクの双方で生のピクセル入力から直接学習を可能にする。

提案手法

  • Kronecker-factored approximate curvature (K-FAC) を用いて Fisher 行列を効率的に反転し自然勾配更新を行う。
  • actor と critic の両方に信頼域制約を適用した自然勾配を使用する(critic には Gauss-Newton)。
  • 必要に応じて actor-critic のジョイント、任意で共有されるアーキテクチャを構築し、出力は独立してサンプリングする。
  • 因子分解された Tikhonovダンピングと非同期統計/逆行列を組み込んで計算を削減する。
  • KL 発散を更新時に制限する信頼域形状の定式化を用いてステップサイズを調整する。

実験結果

リサーチクエスチョン

  • RQ1ACKTR はサンプル効率と計算効率の点で最先端の on-policy 手法および二階のベースラインとどのように比較されるか?
  • RQ2actor と critic の両方に自然勾配更新を適用することが安定性と性能に与える影響は何か?
  • RQ3バッチサイズおよび入力モダリティ(ピクセル入力を含む)に対して離散・連続制御で ACKTR はどのようにスケールするか?
  • RQ4critic 最適化のノルムとダンピング戦略のうち、トレーニングを最も安定化させ、サンプル効率を向上させるのはどれか?

主な発見

  • ACKTR は Atari および MuJoCo ベンチマークで A2C および TRPO に対するサンプル効率と最終性能を著しく改善する。
  • actor と critic の両方を自然勾配更新で最適化することは、従来の方法では達成できなかったスケーラブルな性能向上をもたらす。
  • critic に Gauss-Newton ベースのノルムを用いると、ユークリッドノルム更新と比べてサンプル効率と訓練の安定性に notable gains をもたらす。
  • ACKTR は計算コストを SGD ベースの方法に近い水準に保ち、1回の更新あたりのコストはわずかに高い程度。
  • 生のピクセル入力からの学習を含む連続制御タスクで強力な性能を示し、生ピクセル観測からの競合する結果も含む。
  • より大きなバッチサイズは ACKTR を一階法よりも多く恩恵を受け、分散設定での大幅な速度向上の可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。