QUICK REVIEW

[論文レビュー] Variance-reduced $Q$-learning is minimax optimal

Martin J. Wainwright|arXiv (Cornell University)|Jun 11, 2019

Machine Learning and Algorithms参考文献 40被引用数 44

ひとこと要約

tldr: γ割引付きの有限MDPに対する分散削減版Q学習を導入し、割引複雑性の対数因子まで minimax 最適なサンプル複合性を達成することを証明する。一般的なQ学習に対する依存性1/(1−γ)の改善が顕著である。

ABSTRACT

We introduce and analyze a form of variance-reduced $Q$-learning. For $γ$-discounted MDPs with finite state space $\mathcal{X}$ and action space $\mathcal{U}$, we prove that it yields an $ε$-accurate estimate of the optimal $Q$-function in the $\ell_\infty$-norm using $\mathcal{O} \left(\left(\frac{D}{ ε^2 (1-γ)^3} ight) \; \log \left( \frac{D}{(1-γ)} ight) ight)$ samples, where $D = |\mathcal{X}| imes |\mathcal{U}|$. This guarantee matches known minimax lower bounds up to a logarithmic factor in the discount complexity. In contrast, our past work shows that ordinary $Q$-learning has worst-case quartic scaling in the discount complexity.

研究の動機と目的

γ割引付きの有限MDPに対するQ学習で分散削減法の研究動機づけ。
SVRGに着想を得た実用的な分散削減Q学習アルゴリズムを提案。
非漸近的で高確率な収束保証を確立。
割引複雑性1/(1−γ)の対数因子まで minimax 最適なサンプル複雑性を示す。
既存のQ学習結果と比較し、(1−γ)依存性の改善を特定。

提案手法

無偏リセンタリングを用いたベルマン更新のモンテカルロ近似を用いる分散削減Q学習演算子を定義。
アルゴリズムをエポックに構成し、分散削減更新 θk+1 = (1−λk)θk + λk(bTk(θk) − bTk(θ) + eTN(θ)) とする。ここで eTN(θ) は T(θ) の無偏推定値。
バイアスと分散を制御するためにエポック長KとリセンタリングサンプルサイズNmを用い、ステップサイズは λk = 1/(1+(1−γ)k)。
RunEpoch を提供し、全体の Algorithm Variance-reduced Q-learning は M エポック、各エポック長は K、リセンタリングサンプル Nm。
パラメータ選択を導出: K = c1 log(8MD(1−γ)−δ)/( (1−γ)3 ), Nm = c2 4m log(8MD/δ)/( (1−γ)2 ).
エポックに渡る幾何収束を証明し、対数因子までを含む明示的な総サンプル界を与え、ミニマックス最適な結果に至る。

実験結果

リサーチクエスチョン

RQ1μCan a simple variance-reduction extension of Q-learning achieve minimax-optimal sample complexity for estimating the optimal Q-function in ℓ∞-norm?
RQ2エポック構造、リセンタリング、およびステップサイズを分散削減Q学習でバイアスと分散のバランスをとるように設計すべきか。
RQ3提案手法の正確な非漸近的・高確率保証（収束速度とサンプル複雑性）はどのようになるか。
RQ4(1−γ)依存性の点で提案手法は既存のQ学習およびQ値反復法とどう比較されるか。

主な発見

分散削減Q学習アルゴリズムはエポック間で高確率の幾何収束を達成する。
最終誤差は M エポック後に ∥θM − θ∗∥∞ ≤ ∥σ(θ∗)∥∞ + ∥θ∗∥∞(1−γ)2M となる（確率1−δ）。
ϵ精度を達成する総サンプル複雑性は対数因子依存の表現で境界され、通常のQ学習より改善され、対数因子までミニマックス下限と一致する。
最大 γ割引MDP（rmax制約報酬）における最悪ケースで、この手法は三乗の 1/(1−γ)3 スケーリングを達成し、対数因子を除けば既知のミニマックス下限と一致する（命題1）。
初期化を θ∗から rmax√(1−γ) の範囲内に設定した場合、ミニマックス最適なサンプル複雑性を得ることを示す refined analysis（命題1）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。