QUICK REVIEW

[論文レビュー] Regret Minimization for Reinforcement Learning by Evaluating the Optimal Bias Function

Zihan Zhang, Xiangyang Ji|arXiv (Cornell University)|Jun 12, 2019

Reinforcement Learning in Robotics被引用数 23

ひとこと要約

この論文は、最適バイアス関数 $h^*$ の状態ペア差分を活用することで、$S$ 状態、$A$ 行動、$h^*$ のスパンに対する既知の上限 $H$ を持つ有限時系列 MDP に対して、$ frac{1}{2}$ のレグレットバウンド $ ilde{O}( frac{1}{2})$ を達成する、不確実性の面前での楽観主義（OFU）に基づく強化学習アルゴリズムを提示する。この手法は、先行の OFU に基づくバウンドを $ frac{1}{2}$ 因子改善し、対数要因を除いて既知の下界 $ frac{1}{2}$ に一致する。

ABSTRACT

We present an algorithm based on the \\emph{Optimism in the Face of Uncertainty} (OFU) principle which is able to learn Reinforcement Learning (RL) modeled by Markov decision process (MDP) with finite state-action space efficiently. By evaluating the state-pair difference of the optimal bias function $h^{*}$, the proposed algorithm achieves a regret bound of $\ ilde{O}(\\sqrt{SAHT})$\\footnote{The symbol $\ ilde{O}$ means $O$ with log factors ignored. } for MDP with $S$ states and $A$ actions, in the case that an upper bound $H$ on the span of $h^{*}$, i.e., $sp(h^{*})$ is known. This result outperforms the best previous regret bounds $\ ilde{O}(S\\sqrt{AHT}) $\\citep{fruit2019improved} by a factor of $\\sqrt{S}$. Furthermore, this regret bound matches the lower bound of $\\Omega(\\sqrt{SAHT}) $\\citep{jaksch2010near} up to a logarithmic factor. As a consequence, we show that there is a near optimal regret bound of $\ ilde{O}(\\sqrt{SADT})$ for MDPs with a finite diameter $D$ compared to the lower bound of $\\Omega(\\sqrt{SADT}) $\\citep{jaksch2010near}.

研究の動機と目的

有限状態行動空間を有する MDP に対して、改善されたレグレットバウンドを有する強化学習アルゴリズムの開発を目的とする。
既存の OFU に基づくアルゴリズムが、MDP の信頼領域が粗雑であるために、レグレットスケーリングが最適でないという制限を解消することを目的とする。
最適バイアス関数 $h^*$ の構造を活用することで、信頼領域を厳密にし、レグレット性能を向上させることを目的とする。
既知の情報理論的下界 $ frac{1}{2}$ に対して対数要因を除いて近似的に最適なレグレットバウンドを達成することを目的とする。
有限直径 $D$ を持つ MDP に対して、レグレットバウンド $ frac{1}{2}$ が近似的に最適であることを示すこと。

提案手法

アルゴリズムは、最適バイアス関数 $h^*$ の信頼領域 $ frac{1}{2}$ を、状態ペアの差分に基づいて構築し、よりタイトな MDP 信頼領域を実現する。
トラジェクトリी内の状態行動ペアの順序を用いて $ frac{1}{2}$ を計算し、先行手法が無視する時間的構造を活用する。
集中不等式に基づき、真の $P$ が高確率で $ frac{1}{2}$ に含まれるように、遷移モデルの信頼領域 $ frac{1}{2}$ を維持する。
バイアス関数のスパンを用いて、楽観的 MDP の価値関数と真の MDP の価値関数の差を分析することで、レグレットをバウンドする。
信頼領域内の最良 MDP に対して最適方策を選び、OFU 原理を適用することで、探索を促進しつつレグレットを最小化する。
理論的分析では、帰納法と集中不等式（例：補題 17）を用い、遷移モデル推定値の高確率での信頼性を保証する。

実験結果

リサーチクエスチョン

RQ1最適バイアス関数 $h^*$ の構造を活用することで、OFU に基づく RL アルゴリズムのレグレットバウンドを改善できるか？
RQ2$h^*$ の状態ペア差分を評価することで、MDP に対する信頼領域をタイトにでき、結果としてより良いレグレットバウンドが得られるか？
RQ3先行の OFU 方法が $ frac{1}{2}$ を達成するのに対し、$\sqrt{S}$ 因子の改善でレグレットバウンドを低下させられるか？
RQ4得られたレグレットバウンド $ frac{1}{2}$ は、既知の下界 $ frac{1}{2}$ に対して近似的に最適か？
RQ5同じ手法により、有限直径 $D$ を持つ MDP に対して、近似的に最適なレグレットバウンド $ frac{1}{2}$ を得られるか？

主な発見

上界 $H$ が $ frac{1}{2}$ のスパン $ frac{1}{2}$ に対して既知である場合、提案アルゴリズムは $ frac{1}{2}$ のレグレットバウンドを達成する。
このレグレットバウンドは、先行の最良 OFU に基づくバウンド $ frac{1}{2}$ を $ frac{1}{2}$ 因子改善している。
$ frac{1}{2}$ のレグレットバウンドは、対数要因を除いて既知の下界 $ frac{1}{2}$ に一致しており、近似的に最適であることを示している。
系として、直径 $D$ が有限の MDP に対して、アルゴリズムは $ frac{1}{2}$ のレグレットバウンドを達成し、下界 $ frac{1}{2}$ に一致する。
本手法の主な革新点は、状態行動ペアの時間的順序を用いて $h^*$ の信頼領域を精緻化し、先行手法よりもタイトなバウンドを実現できることにある。
解析により、導出された集中不等式のもとで、遷移モデル $P$ の信頼領域は高確率で真の $P$ を含むことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。