QUICK REVIEW

[論文レビュー] Model-based Reinforcement Learning and the Eluder Dimension

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Jun 7, 2014

Advanced Bandit Algorithms Research参考文献 14被引用数 43

ひとこと要約

本稿は、関数クラスのエルデューア次元およびコルモゴロフ次元に比例するレグレットバウンドを達成する、事後分布サンプリング（PSRL）を用いたモデルベース強化学習フレームワークを提案する。これは、状態および行動の集合の基数に依存するのではなく、関数クラスの内因的次元に依存する。本稿は、一般の関数近似設定におけるモデルベースRLのための最初の統一的レグレットバウンドを提供し、線形、リプシッツ、およびホルダー連続なMDPにおいて最先端の保証を達成する。

ABSTRACT

We consider the problem of learning to optimize an unknown Markov decision process (MDP). We show that, if the MDP can be parameterized within some known function class, we can obtain regret bounds that scale with the dimensionality, rather than cardinality, of the system. We characterize this dependence explicitly as $ ilde{O}(\sqrt{d_K d_E T})$ where $T$ is time elapsed, $d_K$ is the Kolmogorov dimension and $d_E$ is the \emph{eluder dimension}. These represent the first unified regret bounds for model-based reinforcement learning and provide state of the art guarantees in several important settings. Moreover, we present a simple and computationally efficient algorithm \emph{posterior sampling for reinforcement learning} (PSRL) that satisfies these bounds.

研究の動機と目的

状態空間および行動空間のサイズではなく、関数クラスの内因的次元に依存するレグレットバウンドをモデルベース強化学習に開発すること。
バンディット問題におけるエルデューア次元の概念を強化学習に拡張し、関数近似を伴うMDPにおける学習の複雑さを特徴づけること。
報酬関数および遷移関数が未知の一般MDPにおいて、後向きサンプリングによる強化学習（PSRL）がこれらの改善されたレグレットバウンドを達成することを確立すること。
線形、リプシッツ、およびホルダー連続なMDPにおける先行研究を統合し、それらを上回る理論的分析を確立すること。
高次元または連続空間においても、最適なレグレットスケーリングを達成しつつ、計算的に効率的なまま保てるようにすること。

提案手法

関数近似を伴うモデルベースRLに対して、一般のレグレットバウンド $\tilde{O}(\sqrt{d_K d_E T})$ を提案する。ここで $d_K$ はコルモゴロフ次元、$d_E$ はエルデューア次元である。
関数クラスにおける報酬関数および遷移関数の学習の複雑さを捉えるために、MDPにおけるエルデューア次元の新しい拡張を導入する。
高確率の境界を用いた事後分布サンプリングにより構築された信頼集合 $\mathcal{R}_k$ および $\mathcal{P}_k$ を用いる。
期待レグレットを、将来の価値関数のリプシッツ定数で重み付けされた推定誤差の和でバウンドするために、後向きサンプリング補題を適用する。
ユニオンバウンドと集中不等式を用いて、信頼集合の失敗確率を制御し、レグレットと信頼性のバランスを取るために $\delta = 1/(8T)$ を設定する。
被覆数 $n_{\mathcal{F}}$、関数クラスの複雑さ $C_{\mathcal{F}}$、およびエルデューア次元 $d_E(\mathcal{F})$ を組み合わせることで、最終的なレグレットバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1モデルベース強化学習におけるレグレットバウンドは、状態および行動の基数ではなく、関数クラスの内因的次元に依存して表現可能か？
RQ2バンディット問題からMDP設定にまで拡張されたエルデューア次元は、逐次的意思決定における学習の複雑さを捉えるためにどのように一般化可能か？
RQ3報酬関数および遷移関数が低次元関数クラスに属する場合、後向きサンプリングによる強化学習（PSRL）は最適なレグレットスケーリングを達成するか？
RQ4コルモゴロフ次元とエルデューア次元の関係は、モデルベース強化学習の統計的効率にどのように寄与するか？
RQ5提案された分析は、線形、リプシッツ、およびホルダー連続なMDPにおける既存のレグレットバウンドを統合し、それらを改善できるか？

主な発見

本稿は、状態および行動の数に依存するのではなく、エルデューア次元 $d_E$ およびコルモゴロフ次元 $d_K$ に比例する、モデルベース強化学習のための最初の統一的レグレットバウンドを確立した。
レグレットバウンドは $\tilde{O}(\sqrt{d_K d_E T})$ であり、状態・行動空間の基数に依存する古典的バウンド $\tilde{O}(S\sqrt{AT})$ よりも改善されており、関数クラスの複雑さに依存する。
線形MDPでは、次元に依存しない定数を伴い $\tilde{O}(\sqrt{T})$ のレグレットを達成し、指数的依存性を持つ先行研究を上回る。
リプシッツおよびホルダー連続なMDPでは、既知のレートを回復するが、それらのアプローチよりも一般性が高く、計算的に扱いやすい。
分析により、PSRLがこれらのバウンドを満たすことが確認され、関数近似を伴うMDPにおいてシンプルで効率的かつ理論的に最適なアルゴリズムであることが示された。
主な技術的イノベーションは、MDPにおけるエルデューア次元の拡張であり、逐次的意思決定問題における学習の複雑さを明確に特徴づけることを可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。