QUICK REVIEW

[論文レビュー] Combining policy gradient and Q-learning

Brendan O’Donoghue, Rémi Munos|arXiv (Cornell University)|Nov 5, 2016

Reinforcement Learning in Robotics参考文献 28被引用数 94

ひとこと要約

本論文は、正則化された方策勾配とQ値の固定点関係を活用することで、方策勾配とオフポリシーQ学習を統合する新規強化学習アルゴリズムPGQLを提案する。方針の行動選好からQ値を推定し、オフポリシーQ学習の更新でそれを精緻化することで、PGQLは優れたデータ効率性と安定性を達成し、A3CおよびディープQ学習を上回る性能を示した。ランダムスタート条件下では、全アタリスイートで中央値として100%を超える人間正規化スコアを達成した。

ABSTRACT

Policy gradient is an efficient technique for improving a policy in a reinforcement learning setting. However, vanilla online variants are on-policy only and not able to take advantage of off-policy data. In this paper we describe a new technique that combines policy gradient with off-policy Q-learning, drawing experience from a replay buffer. This is motivated by making a connection between the fixed points of the regularized policy gradient algorithm and the Q-values. This connection allows us to estimate the Q-values from the action preferences of the policy, to which we apply Q-learning updates. We refer to the new technique as 'PGQL', for policy gradient and Q-learning. We also establish an equivalency between action-value fitting techniques and actor-critic algorithms, showing that regularized policy gradient techniques can be interpreted as advantage function learning algorithms. We conclude with some numerical examples that demonstrate improved data efficiency and stability of PGQL. In particular, we tested PGQL on the full suite of Atari games and achieved performance exceeding that of both asynchronous advantage actor-critic (A3C) and Q-learning.

研究の動機と目的

深層強化学習におけるバニラ方策勾配手法のデータ非効率性とオンポリシー制限を解消すること。
正則化された方策勾配とQ値の間の関係を確立することで、方策勾配フレームワークにオフポリシー学習を可能にすること。
Q学習の更新を方策勾配最適化に統合することで、サンプル効率性と学習安定性を向上させること。
Q値分解を用いることで、正則化された方策勾配手法がアドバンテージ関数学習アルゴリズムとして解釈可能であることを示すこと。
アタリ学習環境において、A3C やディープQ学習といった最先端手法と比較して、PGQLの性能を実証的に検証すること。

提案手法

本手法は、正則化された方策勾配更新の固定点における方針の行動選好からQ値推定を導出する。
過去の経験を保持するリプレイバッファを用いて、これらの推定Q値に対してオフポリシーQ学習の更新を適用する。
本手法は二重更新メカニズムを用いる：方策勾配更新による方針改善と、Q値の精緻化のためのQ学習更新。
Q値のパrameterizationは、Q値を状態価値関数とアドバンテージ関数に分解するデュエルネットワークアーキテクチャに従う。
ハイパーパramータスケジュールにより、方策勾配とQ学習の学習率をバランスさせ、Q学習の更新頻度を高く設定する。
本手法は深層ニューラルネットワークを用いて実装され、共有された方針およびQ値ネットワークアーキテクチャを用いてアタリ環境に適用された。

実験結果

リサーチクエスチョン

RQ1正則化された方策勾配アルゴリズムの固定点が、方針の行動選好と整合性を持つQ値を推定するために利用可能か？
RQ2オフポリシーQ学習の更新と方策勾配最適化を組み合わせることで、データ効率性と学習安定性が向上するか？
RQ3Q値分解を用いることで、正則化された方策勾配手法をアドバンテージ関数学習アルゴリズムとして解釈可能か？
RQ4アタリスイートにおいて、PGQLはA3CおよびディープQ学習と比較して、性能とサンプル効率性の面でどのように差をつけるか？
RQ5PGQLの失敗モードは、局所最適解や初期データへの過学習に起因するものか？

主な発見

PGQLは全アタリスイートで優れた性能を示し、57ゲーム中34ゲームでA3CおよびディープQ学習を上回った。
ランダムスタート評価では、PGQLの平均正規化スコアが人間性能ベースラインの877.2%、中央値が145.6%を記録した。
人間スタート評価では、PGQLの平均スコアが416.7%、中央値が103.3%であり、人間性能の閾値（100%）を超えた。
特に、PGQLが最高成績を収めたゲームでは、A3CおよびQ学習と比較して高いデータ効率性を示した。サンプル学習トレースからその傾向が明確に確認された。
PGQLが成績を上げられなかったケースでは、しばしば初期に飽和または崩壊する現象が観察され、初期データへの過学習や局所最適解への収束が原因である可能性が示唆された。
本手法は、安定性とサンプル効率性の両面で向上を示し、唯一のゲームでPGQLが最悪の成績を記録したが、ほとんどの場合、他の2つの手法の間に位置した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。