[論文レビュー] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP
本論文は、生成モデルなしで割引付き無限ホライゾンMDPに対するUCB探索を用いたQ-learningアルゴリズムを提案し、探索のPAC-MMD風サンプル複雑度境界を .tilde{O}(SA) / (ε^2 (1−γ)^7) で証明する。
A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.
研究の動機と目的
- モデルフリーRLをシミュレータなしで学習させる際のサンプル効率の研究動機づけ。
- UCB探索ボーナスを組み込んだQ-learningアルゴリズムを提案。
- この設定における探索過程のPAC風サンプル複雑度境界を確立。
提案手法
- Algorithm 1として optimisticなQ推定値Q(s,a)と各(s,a)に対する下限信用界を保持するInfinite Q-learning with UCBを提案。
- Q値更新に探索ボーナス b_k = c2/(1- л) * sqrt(H * iota(k) / k) を組み込む。
- 学習率 alpha_k = (H+1)/(H+k) のゆっくりと変化する学習率を用い、探索を導くためにカウントN(s,a)を追跡。
- 時刻tにおけるε最適性の十分条件を定義し、それを軌道ベースの誤差境界(Condition 1 and Condition 2)と結びつける。
- 無限 horizon にわたるε-サブ最適ステップ数に対するPAC-MDP境界を証明し、重み付き学習誤差を保つ鍵となる補題(Lemma 2)を用いて分析。
- Algorithm 1の探索のサンプル複雑度は ˜O(SA / (ε^2 (1−γ)^7)) であることを示す。
実験結果
リサーチクエスチョン
- RQ1生成モデルなしの無限ホライゾン割引MDPにおけるUCB探索を伴うモデルフリーQ-learningの探索サンプル複雑度はどのくらいか。
- RQ2UCB風の探索は無限ホライゾン設定において従来のモデルフリーアルゴリズム(例:Delayed Q-learning)より改善をもたらすか。
- RQ3無限軌道におけるε-最適性をどう定義・境界づけるか、特定の時点でε-最適性を保証する十分条件は何か。
- RQ4PAC-MDPで finite-horizon から infinite-horizon へ分析手法をどのように適用・適合させるか。
主な発見
- 提案されたUCB-Q学習アルゴリズムは、探索サンプル複雑度の境界を high probability の下で ˜O(SA / (ε^2 (1−γ)^7)) と達成する。
- この境界は、無限ホライゾン設定における Delayed Q-learning の既知の境界である ˜O(SA / (ε^4 (1−γ)^8)) より改善される。
- この結果は、ε, S, A の依存を対数因子を除いて対応する下限と一致する。
- 解析は、無限ホライゾンと有限ホライゾンのMDPの間の重要な違いを強調し、軌道全体の誤差伝播と非連続的な時刻ステップの誤差構造を含む。
- アルゴリズムは O(SA) の値のみを格納するため、モデルベースの代替案よりもメモリ効率に利点を持つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。