QUICK REVIEW

[論文レビュー] Near-Optimal Time and Sample Complexities for Solving Discounted Markov Decision Process with a Generative Model

Aaron Sidford, Mengdi Wang|arXiv (Cornell University)|Jun 5, 2018

Machine Learning and Algorithms参考文献 21被引用数 30

ひとこと要約

この論文は、生成モデルを用いた割引マルコフ決定過程（DMDP）において、$\epsilon$-最適方策を計算するための分散低減Q値反復アルゴリズムを提示する。この手法は、時間的・サンプル複雑性の両面で近似的に最適であり、サンプル複雑性の下界を対数因子を除いて達成し、実行時間複雑性も定数因子を除いてサンプル複雑性と一致する。これは、$1/\sqrt{(1-\gamma)|\mathcal{S}|} \leq \epsilon \leq 1$ の範囲で、サンプルおよび実行時間の両面で最適な性能を達成する。

ABSTRACT

In this paper we consider the problem of computing an $ε$-optimal policy of a discounted Markov Decision Process (DMDP) provided we can only access its transition function through a generative sampling model that given any state-action pair samples from the transition function in $O(1)$ time. Given such a DMDP with states $S$, actions $A$, discount factor $γ\in(0,1)$, and rewards in range $[0, 1]$ we provide an algorithm which computes an $ε$-optimal policy with probability $1 - δ$ where \emph{both} the time spent and number of sample taken are upper bounded by \[ O\left[\frac{|S||A|}{(1-γ)^3 ε^2} \log \left(\frac{|S||A|}{(1-γ)δε} ight) \log\left(\frac{1}{(1-γ)ε} ight) ight] ~. \] For fixed values of $ε$, this improves upon the previous best known bounds by a factor of $(1 - γ)^{-1}$ and matches the sample complexity lower bounds proved in Azar et al. (2013) up to logarithmic factors. We also extend our method to computing $ε$-optimal policies for finite-horizon MDP with a generative model and provide a nearly matching sample complexity lower bound.

研究の動機と目的

生成モデルを用いたDMDPにおける$\epsilon$-最適方策を計算する際、既存のアルゴリズムが同時にサンプル最適かつ実行時間最適でないというギャップを埋める。
この問題における最良の上界と確立されたサンプル複雑性下界との理論的ギャップを埋める。
関心のある範囲で多項対数因子を除いて最適なサンプルおよび実行時間複雑性を達成するアルゴリズムを開発する。
有限時限MDPへと手法を拡張し、ほぼ一致するサンプル複雑性下界を提供する。
従来の手法が$O((1-\gamma)^{-5}\epsilon^{-2})$のサンプル数を必要としているのを改善し、$(1-\gamma)^{-1}$に依存する部分を改善する。

提案手法

本論文は、価値反復中の収束性と安定性を向上させるために分散低減技術を活用する確率的分散低減Q値反復（vQVI）アルゴリズムを導入する。
勾配推定のノイズを低減するためにQ値更新ステップに分散低減を適用し、より少ないサンプル数で高速収束を実現する。
各状態・行動ペアは、遷移分布への$O(1)$時間アクセスを提供する生成モデルを介してサンプリングされる。
スパース更新を用いることで実行時間複雑性を低く保ち、合計時間が使用サンプル数に比例することを保証する。
主な理論的要素として、高確率で推定値と真の値の乖離を制限するための濃度不等式とマルティンゲールの議論を用いる。
割引率変換を用いて有限時限問題と無限時限問題との間の対応関係を構築することで、手法を有限時限MDPに拡張する。

実験結果

リサーチクエスチョン

RQ1生成モデルを用いた割引MDPにおける$\epsilon$-最適方策を計算するための最適なサンプル複雑性は何か？
RQ2サンプル複雑性と実行時間複雑性の両方を同時に最適化するアルゴリズムを設計できるか？
RQ3割引率$(1-\gamma)^{-1}$への依存が、既存のアルゴリズムにおけるサンプルおよび実行時間複雑性にどのように影響するか？
RQ4$\epsilon$-最適方策を計算するために必要な最小サンプル数のタイトな下界は何か？
RQ5提案手法を有限時限MDPに拡張でき、一致するサンプル複雑性下界を達成できるか？

主な発見

提案されたvQVIアルゴリズムは、確率$1-\delta$で$O\left[\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^3\epsilon^2}\log\left(\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)\delta\epsilon}\right)\log\left(\frac{1}{(1-\gamma)\epsilon}\right)\right]$のサンプルを用いて$\epsilon$-最適方策を計算する。
各サンプル遷移が$O(1)$時間でアクセス可能な前提のもと、アルゴリズムの実行時間複雑性はサンプル複雑性と定数因子を除いて一致する。
このアルゴリズムのサンプル複雑性は、[AMK13]で示された既知のサンプル複雑性下界と対数因子を除いて一致する。
有限時限MDPでは、$\Omega(H^{-3}\epsilon^{-2}|\mathcal{S}||\mathcal{A}|/\log\epsilon^{-1})$のほぼ一致するサンプル複雑性下界を達成する。
$(1-\gamma)^{-1}$への依存を$(1-\gamma)^{-1}$の要因で改善することで、長年の文献上のギャップを埋め、先行研究を改善した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。