QUICK REVIEW

[論文レビュー] Q-learning with Nearest Neighbors

Devavrat Shah, Qiaomin Xie|arXiv (Cornell University)|Feb 12, 2018

Reinforcement Learning in Robotics被引用数 18

ひとこと要約

本稿では、未知のダイナミクスを有する連続状態のマーカフ連鎖意思決定過程（MDP）に対して、最良のQ関数を推定するために最近傍回帰を用いる非パrametric強化学習アルゴリズム、最近傍ニューロンQ学習（NNQL）を提案する。有限サンプル収束レートがきわめてタイトであることが確立されており、NNQLが$\varepsilon$-精度を達成するのに$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$のサンプルを必要とすることを示している。ここで$L$はカバー時間であり、$\widetilde{\Omega}(1/\varepsilon^{d+2})$の一致する下界が証明されており、近似的に最適であることが示されている。

ABSTRACT

We consider model-free reinforcement learning for infinite-horizon discounted Markov Decision Processes (MDPs) with a continuous state space and unknown transition kernel, when only a single sample path under an arbitrary policy of the system is available. We consider the Nearest Neighbor Q-Learning (NNQL) algorithm to learn the optimal Q function using nearest neighbor regression method. As the main contribution, we provide tight finite sample analysis of the convergence rate. In particular, for MDPs with a $d$-dimensional state space and the discounted factor $γ\in (0,1)$, given an arbitrary sample path with "covering time" $ L $, we establish that the algorithm is guaranteed to output an $\varepsilon$-accurate estimate of the optimal Q-function using $ ilde{O}\big(L/(\varepsilon^3(1-γ)^7)\big)$ samples. For instance, for a well-behaved MDP, the covering time of the sample path under the purely random policy scales as $ ilde{O}\big(1/\varepsilon^d\big),$ so the sample complexity scales as $ ilde{O}\big(1/\varepsilon^{d+3}\big).$ Indeed, we establish a lower bound that argues that the dependence of $ ildeΩ\big(1/\varepsilon^{d+2}\big)$ is necessary.

研究の動機と目的

未知のダイナミクスを有する連続状態MDPにおける非パrametric Q学習の有限サンプル収束解析の欠如に対処すること。
既知の遷移カーネルを必要とせず、単一の任意のサンプル経路から最適Q関数を学習するモデルフリーRLアルゴリズムの開発。
無限時間割引MDPにおける最近傍ニューロンベースQ学習のタイトな有限サンプル収束保証の提供。
提案されたサンプル複雑性の近似的最適性を示すために一致する下界を確立すること。

提案手法

NNQLは、状態-行動-報酬遷移の単一で逐次的な経路から、最近傍回帰を用いてQ関数を推定する。
期待値は状態空間におけるk個の最近傍ニューロンを用いて近似され、ベルマン更新を逐次的アップデートとして実行する。
解析はNNQLをバイアス付きの確率的近似過程とみなす。更新を2つの成分に分解し、バイアスと分散を別々にバウンディングする。
主な技術的要素として、母集団ベルマン作用素の最近傍ニューロン近似によって生じるバイアスの特定が挙げられる。
非パラメトリック回帰の結果、特にストーンのミニマックスレートを活用して、推定誤差の下界を導出する。
理論的解析では集中不等式とカバーの議論を組み合わせ、経路のカバー時間$L$の観点から誤差をバウンディングする。

実験結果

リサーチクエスチョン

RQ1未知のダイナミクスを有する連続状態MDPにおける最近傍ニューロンQ学習の有限サンプル収束レートは何か？
RQ2NNQLのサンプル複雑性は、近似誤差$\varepsilon$、割引因子$\gamma$、および状態空間の次元$d$に関してどのようにスケーリングされるか？
RQ3この設定で最適Q関数を学習する際の根本的限界は何か？また、アルゴリズムは近似的に最適なサンプル複雑性を達成できるか？
RQ4サンプル経路のカバー時間$L$は、NNQLの収束レートにどのように影響するか？

主な発見

NNQLアルゴリズムは、高確率で$\varepsilon$-精度の最適Q関数推定を$\widetilde{O}(L/\varepsilon^3(1-\gamma)^7)$のサンプル数で達成する。
完全にランダムな方策を用いる良好に整ったMDPでは、カバー時間$L$は$\widetilde{O}(1/\varepsilon^d)$にスケーリングされ、総サンプル複雑性は$\widetilde{O}(1/\varepsilon^{d+3})$となる。
必要なサンプルサイズに対する下界として$\widetilde{\Omega}(1/\varepsilon^{d+2})$が確立されており、アルゴリズムのサンプル複雑性がほぼ最適であることが示されている。
解析により、主な誤差要因はベルマン作用素の最近傍ニューロン近似によるバイアスと、有限で相関のあるサンプルからの分散であることが明らかになった。
更新を2つの部分更新に分解することで、バイアス付き確率的近似の解析において、先行研究のバウンディングを改善する非漸近的収束保証が得られた。
非パラメトリック回帰からMDPへの還元により、MDP問題は回帰問題ほど難しいことが示され、スワンのミニマックス結果を根拠として下界を正当化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。