Skip to main content
QUICK REVIEW

[論文レビュー] Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP

Kefan Dong, Yuanhao Wang|arXiv (Cornell University)|Jan 27, 2019
Reinforcement Learning in Robotics参考文献 16被引用数 37
ひとこと要約

本論文は、生成モデルなしで割引付き無限ホライゾンMDPに対するUCB探索を用いたQ-learningアルゴリズムを提案し、探索のPAC-MMD風サンプル複雑度境界を .tilde{O}(SA) / (ε^2 (1−γ)^7) で証明する。

ABSTRACT

A fundamental question in reinforcement learning is whether model-free algorithms are sample efficient. Recently, Jin et al. \cite{jin2018q} proposed a Q-learning algorithm with UCB exploration policy, and proved it has nearly optimal regret bound for finite-horizon episodic MDP. In this paper, we adapt Q-learning with UCB-exploration bonus to infinite-horizon MDP with discounted rewards \emph{without} accessing a generative model. We show that the extit{sample complexity of exploration} of our algorithm is bounded by $ ilde{O}({\frac{SA}{ε^2(1-γ)^7}})$. This improves the previously best known result of $ ilde{O}({\frac{SA}{ε^4(1-γ)^8}})$ in this setting achieved by delayed Q-learning \cite{strehl2006pac}, and matches the lower bound in terms of $ε$ as well as $S$ and $A$ except for logarithmic factors.

研究の動機と目的

  • モデルフリーRLをシミュレータなしで学習させる際のサンプル効率の研究動機づけ。
  • UCB探索ボーナスを組み込んだQ-learningアルゴリズムを提案。
  • この設定における探索過程のPAC風サンプル複雑度境界を確立。

提案手法

  • Algorithm 1として optimisticなQ推定値Q(s,a)と各(s,a)に対する下限信用界を保持するInfinite Q-learning with UCBを提案。
  • Q値更新に探索ボーナス b_k = c2/(1- л) * sqrt(H * iota(k) / k) を組み込む。
  • 学習率 alpha_k = (H+1)/(H+k) のゆっくりと変化する学習率を用い、探索を導くためにカウントN(s,a)を追跡。
  • 時刻tにおけるε最適性の十分条件を定義し、それを軌道ベースの誤差境界(Condition 1 and Condition 2)と結びつける。
  • 無限 horizon にわたるε-サブ最適ステップ数に対するPAC-MDP境界を証明し、重み付き学習誤差を保つ鍵となる補題(Lemma 2)を用いて分析。
  • Algorithm 1の探索のサンプル複雑度は ˜O(SA / (ε^2 (1−γ)^7)) であることを示す。

実験結果

リサーチクエスチョン

  • RQ1生成モデルなしの無限ホライゾン割引MDPにおけるUCB探索を伴うモデルフリーQ-learningの探索サンプル複雑度はどのくらいか。
  • RQ2UCB風の探索は無限ホライゾン設定において従来のモデルフリーアルゴリズム(例:Delayed Q-learning)より改善をもたらすか。
  • RQ3無限軌道におけるε-最適性をどう定義・境界づけるか、特定の時点でε-最適性を保証する十分条件は何か。
  • RQ4PAC-MDPで finite-horizon から infinite-horizon へ分析手法をどのように適用・適合させるか。

主な発見

  • 提案されたUCB-Q学習アルゴリズムは、探索サンプル複雑度の境界を high probability の下で ˜O(SA / (ε^2 (1−γ)^7)) と達成する。
  • この境界は、無限ホライゾン設定における Delayed Q-learning の既知の境界である ˜O(SA / (ε^4 (1−γ)^8)) より改善される。
  • この結果は、ε, S, A の依存を対数因子を除いて対応する下限と一致する。
  • 解析は、無限ホライゾンと有限ホライゾンのMDPの間の重要な違いを強調し、軌道全体の誤差伝播と非連続的な時刻ステップの誤差構造を含む。
  • アルゴリズムは O(SA) の値のみを格納するため、モデルベースの代替案よりもメモリ効率に利点を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。