QUICK REVIEW

[論文レビュー] Finite-Sample Analysis of Nonlinear Stochastic Approximation with Applications in Reinforcement Learning

Zaiwei Chen, Sheng Zhang|arXiv (Cornell University)|May 27, 2019

Reinforcement Learning in Robotics参考文献 45被引用数 31

ひとこと要約

本稿は、強化学習で一般的に見られるが、有限標本解析においては未だ十分に検討されていないマルコフ型ノイズを伴う非線形確率的近似（SA）に対して、有限標本収束バウンドを提供する。定常ステップサイズでは指数的収束を、減少ステップサイズでは $O(\log k / k)$ の収束レートを確立する。これらの結果を線形関数近似を用いた $Q$-学習に適用し、行動方策、割引率、基底関数に関して、新たな条件のもとで最初の有限標本バウンドを導出。Bairdの反例で数値的に検証された。

ABSTRACT

Motivated by applications in reinforcement learning (RL), we study a nonlinear stochastic approximation (SA) algorithm under Markovian noise, and establish its finite-sample convergence bounds under various stepsizes. Specifically, we show that when using constant stepsize (i.e., $α_k\equiv α$), the algorithm achieves exponential fast convergence to a neighborhood (with radius $O(α\log(1/α))$) around the desired limit point. When using diminishing stepsizes with appropriate decay rate, the algorithm converges with rate $O(\log(k)/k)$. Our proof is based on Lyapunov drift arguments, and to handle the Markovian noise, we exploit the fast mixing of the underlying Markov chain. To demonstrate the generality of our theoretical results on Markovian SA, we use it to derive the finite-sample bounds of the popular $Q$-learning with linear function approximation algorithm, under a condition on the behavior policy. Importantly, we do not need to make the assumption that the samples are i.i.d., and do not require an artificial projection step in the algorithm to maintain the boundedness of the iterates. Numerical simulations corroborate our theoretical results.

研究の動機と目的

強化学習（RL）で一般的に見られるが、有限標本解析においては未だ十分に検討されていないマルコフ型ノイズを伴う非線形確率的近似（SA）に対して、有限標本収束保証を確立すること。
Lyapunovドリフトとマルコフ連鎖の幾何的混合性を用いて、SAアルゴリズムにおける人工的プロジェクションステップの必要性を排除すること。
SAの結果を線形関数近似を用いた $Q$-学習に適用し、安定性の十分条件のもとで、最初の有限標本収束バウンドを提供すること。
導出された条件の十分性と収束レートを、Bairdが有名に示した発散する反例を用いて数値的に検証すること。

提案手法

著者らは、最適解からの距離の期待減少を分析するため、適切なLyapunov関数を構築し、期待値における負のドリフトを保証するLyapunovドリフトの議論を用いる。
基礎となるマルコフ連鎖の幾何的混合性を活用して、ノイズの自己相関を制御し、マルコフ連鎖サンプリングのもとで有限標本バウンドを可能にする。
定常ステップサイズの場合、極限点の近傍 $O(\alpha \log(1/\alpha))$ における指数的収束が示される。
減少ステップサイズ $\alpha_k = \alpha / (k + h)^\xi$ の場合、収束レート $O(\log k / k)$ が導出され、$\xi = 1$ のときに最適レートが達成される。
非線形SAにおけるマルコフ型ノイズの更新をモデル化することで、線形関数近似を用いた $Q$-学習にこのアプローチを適用する。
収束の十分条件として、行動方策 $\pi$、割引率 $\gamma$、基底関数を関連づける条件が導出され、$\omega(\pi) > \gamma^2$ として形式化される。

実験結果

リサーチクエスチョン

RQ1i.i.d.標本や人工的プロジェクションを必要とせずに、マルコフ型ノイズを伴う非線形確率的近似に対して有限標本収束バウンドを確立できるか？
RQ2非線形マルコフ型SAにおいて、定常ステップサイズを用いた場合の収束レートは何か？指数的収束を証明できるか？
RQ3一般には発散することが知られている線形関数近似を用いた $Q$-学習が、有限標本収束を保証するための条件は何か？
RQ4理論的収束レートと実験的性能との間にどのような差異があるか？特に、Bairdの反例のような既知の発散ケースにおいては？
RQ5導出された安定性条件が数値的に検証可能であり、実際の収束に十分であることが示せるか？

主な発見

定常ステップサイズの場合、非線形SAアルゴリズムは最適解の近傍 $O(\alpha \log(1/\alpha))$ において指数的収束を達成する。
減少ステップサイズ $\alpha_k = \alpha / (k + h)^\xi$ の場合、アルゴリズムは $O(\log k / k)$ のレートで収束し、$\xi = 1$ のときに最適レートが達成される。
提案された条件 $\omega(\pi) > \gamma^2$ は、線形関数近似を用いた $Q$-学習の有限標本収束を保証する。ここで $\omega(\pi)$ は、行動方策が基底関数の変動をどれだけ探索できるかを定量化する。
数値実験により、$\gamma = 0.7$ の場合に指数的収束が確認され、$\gamma = 0.97$ の場合に発散することが示され、条件の十分性が検証された。
減少ステップサイズの場合、実験的収束レートは理論的 $O(\log k / k)$ レートと一致し、$\log \mathbb{E}[\|\theta_k - \theta^*\|^2]$ と $\log k$ のグラフの傾きが $-\xi$ にほぼ一致する。理論的レートが確認された。
条件を満たす場合、Bairdの反例においても $Q$-学習が安定化されることを示し、理論的バウンドの実用的意義を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。