QUICK REVIEW

[論文レビュー] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP

Kefan Dong, Yuanhao Wang|arXiv (Cornell University)|Jan 27, 2019

Reinforcement Learning in Robotics参考文献 16被引用数 37

ひとこと要約

本論文は、生成モデルなしで割引付き無限ホライゾンMDPに対するUCB探索を用いたQ-learningアルゴリズムを提案し、探索のPAC-MMD風サンプル複雑度境界を .tilde{O}(SA) / (ε^2 (1−γ)^7) で証明する。

ABSTRACT

A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.

研究の動機と目的

モデルフリーRLをシミュレータなしで学習させる際のサンプル効率の研究動機づけ。
UCB探索ボーナスを組み込んだQ-learningアルゴリズムを提案。
この設定における探索過程のPAC風サンプル複雑度境界を確立。

提案手法

Algorithm 1として optimisticなQ推定値Q(s,a)と各(s,a)に対する下限信用界を保持するInfinite Q-learning with UCBを提案。
Q値更新に探索ボーナス b_k = c2/(1- л) * sqrt(H * iota(k) / k) を組み込む。
学習率 alpha_k = (H+1)/(H+k) のゆっくりと変化する学習率を用い、探索を導くためにカウントN(s,a)を追跡。
時刻tにおけるε最適性の十分条件を定義し、それを軌道ベースの誤差境界（Condition 1 and Condition 2）と結びつける。
無限 horizon にわたるε-サブ最適ステップ数に対するPAC-MDP境界を証明し、重み付き学習誤差を保つ鍵となる補題（Lemma 2）を用いて分析。
Algorithm 1の探索のサンプル複雑度は ˜O(SA / (ε^2 (1−γ)^7)) であることを示す。

実験結果

リサーチクエスチョン

RQ1生成モデルなしの無限ホライゾン割引MDPにおけるUCB探索を伴うモデルフリーQ-learningの探索サンプル複雑度はどのくらいか。
RQ2UCB風の探索は無限ホライゾン設定において従来のモデルフリーアルゴリズム（例：Delayed Q-learning）より改善をもたらすか。
RQ3無限軌道におけるε-最適性をどう定義・境界づけるか、特定の時点でε-最適性を保証する十分条件は何か。
RQ4PAC-MDPで finite-horizon から infinite-horizon へ分析手法をどのように適用・適合させるか。

主な発見

提案されたUCB-Q学習アルゴリズムは、探索サンプル複雑度の境界を high probability の下で ˜O(SA / (ε^2 (1−γ)^7)) と達成する。
この境界は、無限ホライゾン設定における Delayed Q-learning の既知の境界である ˜O(SA / (ε^4 (1−γ)^8)) より改善される。
この結果は、ε, S, A の依存を対数因子を除いて対応する下限と一致する。
解析は、無限ホライゾンと有限ホライゾンのMDPの間の重要な違いを強調し、軌道全体の誤差伝播と非連続的な時刻ステップの誤差構造を含む。
アルゴリズムは O(SA) の値のみを格納するため、モデルベースの代替案よりもメモリ効率に利点を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。