QUICK REVIEW

[論文レビュー] On Convergence of some Gradient-based Temporal-Differences Algorithms for Off-Policy Learning

Huizhen Yu|arXiv (Cornell University)|Dec 27, 2017

Reinforcement Learning in Robotics参考文献 25被引用数 25

ひとこと要約

本論文は、線形関数近似を用いた勾配ベースのオフポリシー時系列差分（TD）アルゴリズム、特にGTD、ミラー降下変種、および単一時刻スケールのミニマックス定式化を含む、収束保証を確立する。履歴に依存するλスキームを用いることで、有界なエリゴード性トレースのもとで、標準の徐々に減少するステップサイズのもとでほとんど確実な収束を証明する一方で、標準の徐々に減少するステップサイズ下での無限大トレースにおける収束の難しさを強調する。

ABSTRACT

We consider off-policy temporal-difference (TD) learning methods for policy evaluation in Markov decision processes with finite spaces and discounted reward criteria, and we present a collection of convergence results for several gradient-based TD algorithms with linear function approximation. The algorithms we analyze include: (i) two basic forms of two-time-scale gradient-based TD algorithms, which we call GTD and which minimize the mean squared projected Bellman error using stochastic gradient-descent; (ii) their "robustified" biased variants; (iii) their mirror-descent versions which combine the mirror-descent idea with TD learning; and (iv) a single-time-scale version of GTD that solves minimax problems formulated for approximate policy evaluation. We derive convergence results for three types of stepsizes: constant stepsize, slowly diminishing stepsize, as well as the standard type of diminishing stepsize with a square-summable condition. For the first two types of stepsizes, we apply the weak convergence method from stochastic approximation theory to characterize the asymptotic behavior of the algorithms, and for the standard type of stepsize, we analyze the algorithmic behavior with respect to a stronger mode of convergence, almost sure convergence. Our convergence results are for the aforementioned TD algorithms with three general ways of setting their $λ$-parameters: (i) state-dependent $λ$; (ii) a recently proposed scheme of using history-dependent $λ$ to keep the eligibility traces of the algorithms bounded while allowing for relatively large values of $λ$; and (iii) a composite scheme of setting the $λ$-parameters that combines the preceding two schemes and allows a broader class of generalized Bellman operators to be used for approximate policy evaluation with TD methods.

研究の動機と目的

有限状態のMDPにおける勾配ベースのオフポリシーTDアルゴリズムと線形関数近似の下での厳密な収束結果を確立すること。
状態に依存する、履歴に依存する、および合成的なスキームを含む、異なるλパラメータ設定がアルゴリズムの収束に与える影響を分析すること。
定数、徐々に減少する、および標準の徐々に減少する（二乗可summable）の3つのステップサイズレジームにおける収束行動を調査すること。
制約付きおよび制約なしの単一時刻スケールGTDaの収束解析を拡張すること、偏りのある変種を含むこと。
標準の徐々に減少するステップサイズ下で、ほとんど確実な収束を可能にする有界なエリゴード性トレースの役割を明確にすること。

提案手法

定数および徐々に減少するステップサイズ下での漸近的挙動を特徴付けるために、確率的近似理論の弱収束法を適用する。
標準の徐々に減少するステップサイズレジーム下でのほとんど確実な収束分析を、確率的近似理論を用いて行う。
有界なエリゴード性トレースを保証しつつ、より大きなλ値を許容する履歴に依存するλスキームを導入する。
2時刻スケールGTDアルゴリズムを、高速および遅速の時刻スケール更新に分解することで解析する。
微分包含とマルコフ連鎖のエルゴディック性を用いて、状態-トレースプロセスとその不変測度を研究する。
各アルゴリズムの平均ODEを導出し、それらのODEの内部チェーン推移的不変集合への収束を証明する。

実験結果

リサーチクエスチョン

RQ1定数または徐々に減少するステップサイズ下で、2時刻スケールの勾配ベースのTDアルゴリズムが収束する条件は何か？
RQ2標準の徐々に減少するステップサイズ下で、エリゴード性トレースが無限大である場合に、オフポリシーTDアルゴリズムのほとんど確実な収束を確立できるか？
RQ3有界なエリゴード性トレースを保証する履歴に依存するλスキームが、状態に依存するまたは定数λと比較して収束に与える影響は何か？
RQ4ミニマックス問題として定式化された単一時刻スケールGTDaアルゴリズムの収束行動はいかなるものか？
RQ5GTDおよびミラー降下TDアルゴリズムの偏りのある変種は、同じステップサイズおよびλスキーム条件下でも収束特性を維持するか？

主な発見

定数および徐々に減少するステップサイズ下では、解析されたすべてのアルゴリズムが、関連する平均ODEの内部チェーン推移的不変集合に分布収束する。
履歴に依存するλスキームによってエリゴード性トレースが有界である限り、2時刻スケールGTDおよびMD-GTDが標準の徐々に減少するステップサイズ条件下でほとんど確実に収束することが証明された。
トレースが有界である限り、標準の徐々に減少するステップサイズ下での単一時刻スケールGTDaの収束が証明されたが、状態に依存するλによる無限大トレース下では解析が限定的である。
GTDおよびGTDaの偏りのある変種が、近似的に勾配ベースのアルゴリズムであることが示され、収束特性はトレースプロセスの有界性に依存することが分かった。
トレースプロセスが有界に保たれる限り、制約なしの単一時刻スケールGTDaの収束が、標準の徐々に減少するステップサイズ条件下で確立された。
解析により、標準の徐々に減少するステップサイズ下で強い収束保証を可能にするために、有界なエリゴード性トレースが不可欠であることが確認された。これは、無限大トレースの状況では不安定性が生じる可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。