Skip to main content
QUICK REVIEW

[論文レビュー] Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation

Shangtong Zhang, Bo Liu|arXiv (Cornell University)|Nov 11, 2019
Adaptive Dynamic Programming Control被引用数 23
ひとこと要約

本稿では、関数近似を用いた最初の理論的収束保証付きの2時刻スケール非政策勾配エージェント・クリティック(actor-critic)アルゴリズムであるCOF-PACを提案する。本手法は、勾配強調学習(GEM)を用いて訓練される強調クリティック(emphasis critic)を導入し、従来の手法よりもより頑健に重要度重みを近似することで、非政策学習の安定性を高め、線形関数近似と非線形方策パラメータ化の下で確実収束を保証する。

ABSTRACT

We present the first provably convergent two-timescale off-policy actor-critic algorithm (COF-PAC) with function approximation. Key to COF-PAC is the introduction of a new critic, the emphasis critic, which is trained via Gradient Emphasis Learning (GEM), a novel combination of the key ideas of Gradient Temporal Difference Learning and Emphatic Temporal Difference Learning. With the help of the emphasis critic and the canonical value function critic, we show convergence for COF-PAC, where the critics are linear and the actor can be nonlinear.

研究の動機と目的

  • 関数近似の下で理論的収束を保証できる非政策勾配エージェント・クリティックアルゴリズムの理論的ギャップを埋める。
  • Off-PACのような既存の非政策勾配エージェント・クリティック手法が関数近似を用いる際の不安定性と収束保証の欠如を解消する。
  • 非政策設定における重要度サンプリング比(強調)を正確に追跡するクリティック部を設計し、学習の安定性を向上させる。
  • 2時刻スケール学習と関数近似の下で非線形方策パラメータ化に対しても収束解析を可能にする。
  • 勾配時系列差分原理に基づく新規なクリティック訓練手法を用いて、2時刻スケールの勾配エージェント・クリティックフレームワークの理論的収束を確立する。

提案手法

  • 強調クリティック(emphasis critic)を導入し、これはフォローオントレースの極限として定義される強調を用いて、非政策学習における状態の重要性を推定する新しいクリティック部である。
  • GTDと強調TDのアイデアを統合した、分散低減と収束性向上を目的とした確率的近似アルゴリズムである勾配強調学習(GEM)を提案する。
  • 2時刻スケール更新ルールを採用:クリティック(強調的かつ価値ベース)は高速な時刻スケールで更新され、エージェントは遅い時刻スケールで更新される。
  • 両方のクリティックに線形関数近似を適用し、エージェントに非線形方策パラメータ化を許容することで、実用的なディープRL応用を可能にする。
  • GTDスタイルの収束理論に基づき、変化がゆっくりな目標方策の下でGEMの確実収束を証明することで収束を確立する。
  • GTDスタイルのアルゴリズムが変化がゆっくりな方策の下で正しい固定点を追跡できることを活用し、クリティックが正しい固定点に収束することを保証することで、エージェントの収束を可能にする。

実験結果

リサーチクエスチョン

  • RQ1一般の非線形方策パラメータ化の下で、関数近似を用いた2時刻スケール非政策勾配エージェント・クリティックアルゴリズムが理論的収束を保証できるか?
  • RQ2フォローオントレースによる推定よりも、非政策学習における強調(重要度重み)をより安定して推定できるか? これにより収束が可能になるか?
  • RQ3勾配強調学習(GEM)は、非政策強化学習における強調の推定に対して安定かつ収束する手法を提供するか?
  • RQ4関数近似を用いる場合、変化がゆっくりな方策の下でクリティックの収束を保証できるか?
  • RQ5各ステップでクリティックが正確に収束すると仮定しないで、関数近似を用いた非政策勾配エージェント・クリティックの収束を達成できるか?

主な発見

  • COF-PACは、線形クリティックと非線形エージェントの下で、関数近似を用いた最初の2時刻スケール非政策勾配エージェント・クリティックアルゴリズムであり、理論的収束を保証する。
  • 勾配強調学習(GEM)は、線形関数近似と変化がゆっくりな目標方策の下で、強調クリティックの確実収束を保証する。
  • GEMで訓練された強調クリティックは、フォローオントレースよりもより安定で分散が小さい重要度重みの推定を提供し、従来手法の主要な不安定要因を解消する。
  • COF-PACの収束レベルは、政策学習(Konda, 2002)と同等であり、非政策学習であるにもかかわらず、同じ理論的保証を達成する。
  • 理論的枠組みにより、GTDスタイルのアルゴリズム(GEMを含む)が変化がゆっくりな方策の下で正しい固定点を追跡できることを確立し、2時刻スケールの収束を可能にする。
  • 解析により、関数近似を用いても、強調クリティックとGEMを用いることで収束が保たれることを確認し、非政策強化学習における長年の理論的障壁を乗り越えた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。