QUICK REVIEW

[論文レビュー] A Multistep Lyapunov Approach for Finite-Time Analysis of Biased Stochastic Approximation

Gang Wang, Bingcong Li|arXiv (Cornell University)|Sep 10, 2019

Reinforcement Learning in Robotics参考文献 34被引用数 25

ひとこと要約

本稿では、一般の確率的ノイズ（マルコフ連鎖を含む）のもとで、バイアス付き確率的近似（SA）アルゴリズムの有限時間解析を可能にする、新しい多段階リャプノフ関数を導入する。線形および非線形関数近似を用いた未変更のTD(0)およびQ学習に対する、非漸近的平均二乗誤差の境界を初めて確立する。これは、投影ステップや混合時間の待機を要しない。

ABSTRACT

Motivated by the widespread use of temporal-difference (TD-) and Q-learning algorithms in reinforcement learning, this paper studies a class of biased stochastic approximation (SA) procedures under a mild "ergodic-like" assumption on the underlying stochastic noise sequence. Building upon a carefully designed multistep Lyapunov function that looks ahead to several future updates to accommodate the stochastic perturbations (for control of the gradient bias), we prove a general result on the convergence of the iterates, and use it to derive non-asymptotic bounds on the mean-square error in the case of constant stepsizes. This novel looking-ahead viewpoint renders finite-time analysis of biased SA algorithms under a large family of stochastic perturbations possible. For direct comparison with existing contributions, we also demonstrate these bounds by applying them to TD- and Q-learning with linear function approximation, under the practical Markov chain observation model. The resultant finite-time error bound for both the TD- as well as the Q-learning algorithms is the first of its kind, in the sense that it holds i) for the unmodified versions (i.e., without making any modifications to the parameter updates) using even nonlinear function approximators; as well as for Markov chains ii) under general mixing conditions and iii) starting from any initial distribution, at least one of which has to be violated for existing results to be applicable.

研究の動機と目的

一般の確率的ノイズ系列におけるバイアス付き確率的近似（SA）アルゴリズムの非漸近的性能保証を構築すること。
投影ステップや幾何的混合、長時間の初期化遅延を要する既存の有限時間解析の制限を克服すること。
非線形関数近似を用いた未変更のTD(0)およびQ学習アルゴリズムへの有限時間誤差境界の拡張。
マルコフ連鎖の観測値に対して、一般の混合率および任意の初期分布のもとでの収束性の分析。
新規な多段階リャプノフ関数を用いた、SA手続きの有限時間解析の一般枠組みの提供。

提案手法

将来の反復値を組み込むことで、確率的摂動による勾配バイアスを制御する多段階リャプノフ関数の設計。
i.i.d.系列および非周期的で再帰的なマルコフ連鎖に対して有効な、やや「エルゴード的」という仮定を導入。
更新式における即時のノイズによって生じるバイアスを安定化させるために、複数ステップ先を見るリャプノフ関数の構築。
多段階リャプノフ関数を用いて、定数ステップサイズのSA手続きの非漸近的平均二乗誤差境界を導出。
単一の軌道に基づくマルコフ連鎖モデルのもとで、線形関数近似を用いたTD(0)およびQ学習に一般境界を特化。
境界が投影ステップを要せず、最初の反復から成り立つこと、一般の混合条件のもとで成り立つことを証明。

実験結果

リサーチクエスチョン

RQ1投影ステップを要しない未変更のTD(0)およびQ学習アルゴリズムに対して、有限時間誤差境界を確立できるか？
RQ2一般の混合マルコフ連鎖および任意の初期分布のもとで、バイアス付きSAに対する非漸近的保証を導出できるか？
RQ3提案された多段階リャプノフ関数は、一般の確率的摂動の下で勾配バイアスを効果的に制御できるか？
RQ4導出された境界は、線形モデルに限らず非線形関数近似を用いた場合にも成り立つか？
RQ5ノイズ過程に最小限の仮定しかおかない定数ステップサイズのSA手続きに対しても、解析を拡張できるか？

主な発見

提案された多段階リャプノフ関数により、一般の確率的摂動（一般の混合率を有するマルコフ連鎖を含む）のもとで、バイアス付きSAの有限時間解析が可能になる。
未変更のTD(0)および線形関数近似を用いたQ学習に対する、非漸近的平均二乗誤差境界が初めて導出され、最初の反復から有効で、任意の初期分布のもとで成り立つ。
コンパクト集合への投影ステップを要しないことが、従来の研究がそうした制約を課すのとは対照的に、大きな利点である。
関数近似が仮定1を満たす限り、非線形関数近似にも適用可能であり、線形モデルを超えた拡張が可能である。
幾何的混合を要しない一般の混合条件（例えば、指数的より遅い、非幾何的混合率を含む）のもとで境界が有効である。
理論的枠組みは、Q学習に線形関数近似を用いた場合に、標準的なサンプリングおよび近似条件のもとで仮定1～3が満たされることを証明することで、妥当性が裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。