QUICK REVIEW

[論文レビュー] Stochastic approximation with cone-contractive operators: Sharp $\ell_\infty$-bounds for $Q$-learning

Martin J. Wainwright|arXiv (Cornell University)|May 15, 2019

Reinforcement Learning in Robotics参考文献 23被引用数 23

ひとこと要約

本稿では、錐に由来する順序とゲージノルムに関する単調性および準収縮性を特徴とする、新しい確率的近似枠組みを用いて、割引マルコフ決定過程における$Q$-学習の非漸近的$ε$-バウンドを鋭く導出する。著者らは、この枠組みにより、既知の最も鋭い$∞$-ノルム誤差バウンドを導出し、$Q$-学習のサンプル複雑性が最悪ケースで$\frac{1}{(1-\gamma)^4\epsilon^2}$にスケーリングすることを示している。これは、最適なモデルベースの$Q$-イテレーションと比較してギャップを示している。

ABSTRACT

Motivated by the study of $Q$-learning algorithms in reinforcement learning, we study a class of stochastic approximation procedures based on operators that satisfy monotonicity and quasi-contractivity conditions with respect to an underlying cone. We prove a general sandwich relation on the iterate error at each time, and use it to derive non-asymptotic bounds on the error in terms of a cone-induced gauge norm. These results are derived within a deterministic framework, requiring no assumptions on the noise. We illustrate these general bounds in application to synchronous $Q$-learning for discounted Markov decision processes with discrete state-action spaces, in particular by deriving non-asymptotic bounds on the $\ell_\infty$-norm for a range of stepsizes. These results are the sharpest known to date, and we show via simulation that the dependence of our bounds cannot be improved in a worst-case sense. These results show that relative to a model-based $Q$-iteration, the $\ell_\infty$-based sample complexity of $Q$-learning is suboptimal in terms of the discount factor $γ$.

研究の動機と目的

錐に由来する順序とゲージノルムに関して単調かつ準収縮的であるような作用素によって支配される、非漸近的誤差解析の一般枠組みの構築。
この枠組みを、割引マルコフ決定過程における同期$Q$-学習に特に適用すること。
$Q$-学習の$\ell_\infty$-ノルム誤差に対する、これまでで最も鋭い非漸近的バウンドの導出。
$Q$-学習のサンプル複雑性が、割引因子$\gamma$に関して、モデルベースの$Q$-イテレーションに比べて劣っていることを示すこと。
構築された「難しい」問題例を用いたシミュレーションにより、バウンドのタイトネスを検証すること。

提案手法

単調かつ錐に由来する順序とゲージノルムに関して準収縮的である作用素によって支配される、一般の確率的近似アルゴリズムのクラスを導入する。
各ステップにおける反復誤差を、錐に由来する順序によって挟み込む決定的不等式を確立する。
挟み込み結果を用いて、特定の減衰するステップサイズスケジュール（線形および多項式）に適用することで、一般のステップサイズに対する非漸近的誤差バウンドを導出する。
一般理論を同期$Q$-学習に特化し、上界ノルムの錐（直交錐）を用いて$\ell_\infty$-ノルムバウンドを導出する。
指数和および積分のバウンドに依存して、期待誤差を制御するための集中と和分の技法を用いる。
非自明な分散構造を持つ構築済みの問題例を用いて、導出されたバウンドが一般に改善不能であることを示す。特に、$\frac{1}{(1-\gamma)^5}$の最悪ケーススケーリングにおいてそのことが示された。

実験結果

リサーチクエスチョン

RQ1一般のステップサイズに関して、同期$Q$-学習の非漸近的$\ell_\infty$-ノルム誤差バウンドとして、最も鋭いものは何か？
RQ2$Q$-学習の性能は、割引因子$\gamma$に関して、モデルベースの$Q$-イテレーションと比較してどのように異なるか？
RQ3$Q$-学習の理論的誤差バウンドがタイトであることを示せるか、その場合、どのような条件下で成立するか？
RQ4$Q$-学習における$\epsilon$-精度を達成するための反復回数の最適スケーリングは何か、$\ell_\infty$-ノルムにおいて？
RQ5最悪ケースの$\ell_\infty$-誤差バウンドが$\frac{1}{(1-\gamma)^5}$に実際に達成される問題例は存在するか？

主な発見

本稿では、多項式ステップサイズの場合に最悪ケーススケーリング$\frac{1}{(1-\gamma)^5}$を示す、$Q$-学習のこれまでで最も鋭い非漸近的$\ell_\infty$-ノルムバウンドを確立した。
特定の「難しい」MDP例において、理論は$\ell_\infty$-ノルムにおける$\epsilon$-精度を達成するのに$\frac{1}{(1-\gamma)^4\epsilon^2}$回の反復が必要であると予測しており、シミュレーションによりこの予測が実験的にもタイトであることが確認された。
$Q$-学習の$\ell_\infty$-ベースのサンプル複雑性は、モデルベースの$Q$-イテレーションに比べて劣っており、後者は$\frac{1}{(1-\gamma)^3\epsilon^2}$のスケーリングを達成している。
非自明な分散構造を持つ構築済みの問題例を用いたシミュレーションスタディにより、バウンドが一様に改善不能であることが示された。
解析により、$Q$-学習の収束速度は本質的に割引因子$\gamma$によって制限されており、有利な状況では$\ell_\infty$-誤差が$\frac{1}{(1-\gamma)^4\epsilon^2}$にスケーリングすることが明らかになった。
この枠組みは、錐単調かつ準収縮的作用素を有する任意の確率的近似アルゴリズムに一般に適用可能であり、$Q$-学習を越えて行列値問題などの他の設定にも拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。