QUICK REVIEW

[論文レビュー] Tightening the Dependence on Horizon in the Sample Complexity of Q-Learning

Gen Li, Changxiao Cai|arXiv (Cornell University)|Feb 12, 2021

Reinforcement Learning in Robotics参考文献 40被引用数 8

ひとこと要約

この論文は、無限時間ホライズンMDPにおける同期Q学習のサンプル複雑度を、$\mathcal{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^2}\right)$ から $\mathcal{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^4\varepsilon^2}\right)$ に改善し、有効ホライズン $\frac{1}{1-\gamma}$ への依存度を段階的（order-wise）に低減した。これは、新規の誤差分解と再帰的解析を用いて達成され、追加の計算や記憶容量を要しない。

ABSTRACT

Q-learning, which seeks to learn the optimal Q-function of a Markov decision process (MDP) in a model-free fashion, lies at the heart of reinforcement learning. When it comes to the synchronous setting (such that independent samples for all state-action pairs are drawn from a generative model in each iteration), substantial progress has been made recently towards understanding the sample efficiency of Q-learning. To yield an entrywise $\varepsilon$-accurate estimate of the optimal Q-function, state-of-the-art theory requires at least an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^{2}}$ samples for a $\gamma$-discounted infinite-horizon MDP with state space $\mathcal{S}$ and action space $\mathcal{A}$. In this work, we sharpen the sample complexity of synchronous Q-learning to an order of $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^4\varepsilon^2}$ (up to some logarithmic factor) for any $0<\varepsilon <1$, leading to an order-wise improvement in terms of the effective horizon $\frac{1}{1-\gamma}$. Analogous results are derived for finite-horizon MDPs as well. Our finding unveils the effectiveness of vanilla Q-learning, which matches that of speedy Q-learning without requiring extra computation and storage. A key ingredient of our analysis lies in the establishment of novel error decompositions and recursions, which might shed light on how to analyze finite-sample performance of other Q-learning variants.

研究の動機と目的

無限時間ホライズンMDPにおける同期Q学習のサンプル複雑度を、有効ホライズン $\frac{1}{1-\gamma}$ への依存度の改善によって低減すること。
計算量や記憶容量の増加なしに、標準Q学習とスピードQ学習の間のサンプル効率のギャップを埋めること。
新たな解析的ツールを導入することで、Q学習の有限サンプル性能に対するよりタイトな理論的境界を確立すること。
有限時間ホライズンMDPに対しても、改善されたサンプル複雑度の境界を拡張すること。

提案手法

Q学習更新における近似誤差と推定誤差を分離する、新規の誤差分解技術の開発。
反復間における誤差伝播を記述する新しい再帰的関係の導出により、収束速度のより厳密な制御を可能にした。
すべての状態行動ペアが各反復で同時にサンプリングされるという生成モデルの仮定の下で、同期Q学習アルゴリズムを分析した。
濃度不等式とマルティンググールドの議論を用いて、Q値推定値とその期待値との乖離を限定した。
新しい誤差フレームワークの下で、ベルマン作用素の収縮性の refined 分析を導入した。
誤差分解を有限時間ホライズン構造に適合させることで、有限時間ホライズンMDPへの分析を拡張した。

実験結果

リサーチクエスチョン

RQ1有効ホライズン $\frac{1}{1-\gamma}$ への依存度を低減させることで、同期Q学習のサンプル複雑度を改善できるか？
RQ2計算量や記憶容量の増加なしに、スピードQ学習と同等のサンプル効率を達成できるか？
RQ3既存の境界を超えて、Q学習の有限サンプル解析をタイトにするために、どのような新たな解析的ツールが必要か？
RQ4改善された誤差分解は、無限時間および有限時間ホライズンMDPの両方における収束速度にどのように影響するか？

主な発見

無限時間ホライズンMDPにおいて、同期Q学習のサンプル複雑度は、$\mathcal{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^5\varepsilon^2}\right)$ から $\mathcal{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^4\varepsilon^2}\right)$ に改善され、対数的要因を除いて成立する。
有効ホライズン $\frac{1}{1-\gamma}$ への依存度の段階的低減が達成され、これはサンプル複雑度の主なボトルネックである。
提案された解析は、追加の計算や記憶容量を要せず、スピードQ学習と同等の性能を達成した。
新規の誤差分解と再帰フレームワークにより、誤差伝播のより厳密な制御が可能となり、これが改善された境界の中心的要因となった。
同一の理論的フレームワークは、有限時間ホライズンMDPに対しても成功裏に拡張され、サンプル複雑度における同様の改善が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。