QUICK REVIEW

[論文レビュー] Thompson Sampling for Learning Parameterized Markov Decision Processes

Aditya Gopalan, Shie Mannor|arXiv (Cornell University)|Jun 29, 2014

Advanced Bandit Algorithms Research参考文献 24被引用数 23

ひとこと要約

この論文は、遷移確率と報酬が低次元パラメータによって支配されるパラメトリックなマークフ・意思決定過程（MDP）を学習するためのトマソンサンプリングを提案する。事後分布に共役性や積形の事前分布を仮定しない状況でも、頻度主義的レグレットバウンドを確立し、最適でない行動が高確率で対数的に少ない回数選ばれることを示している。定数要因は、パラメータ空間のカルバック・ライブラー幾何学を用いた情報複雑度を符号化している。

ABSTRACT

We consider reinforcement learning in parameterized Markov Decision Processes (MDPs), where the parameterization may induce correlation across transition probabilities or rewards. Consequently, observing a particular state transition might yield useful information about other, unobserved, parts of the MDP. We present a version of Thompson sampling for parameterized reinforcement learning problems, and derive a frequentist regret bound for priors over general parameter spaces. The result shows that the number of instants where suboptimal actions are chosen scales logarithmically with time, with high probability. It holds for prior distributions that put significant probability near the true model, without any additional, specific closed-form structure such as conjugate or product-form priors. The constant factor in the logarithmic scaling encodes the information complexity of learning the MDP in terms of the Kullback-Leibler geometry of the parameter space.

研究の動機と目的

MDPの構造が未知の少数のパラメータによって支配される状況における強化学習における効率的探索の課題に対処すること。
状態遷移におけるパラメータの相関関係を活用することで学習効率を向上させる、トマソンサンプリングに基づくアルゴリズムの開発。
共役性などの特定の事前分布構造を仮定しない一般のパラメトリックMDPにおけるトマソンサンプリングの頻度主義的レグレットバウンドの導出。
パラメータ空間のカルバック・ライブラー幾何学を通じて、MDPの学習における情報複雑度の定量化。
事前分布が真のパラメータの周辺に集中している場合でも、最適でない行動の選択回数が時間に対して対数的に増加することの証明。

提案手法

アルゴリズムは参照状態への訪問によって定義されるサイクルで動作し、各サイクルごとに事後分布からパラメータを1回サンプリングし、そのサンプルに対応する最適方策をサイクル全体で実行する。
各サイクル後に観測された報酬と遷移を統合することで、パラメータ空間上の事後分布をベイズ更新により更新する。
マーカフ性とリニューアル報酬定理を活用し、経路ベースの濃度解析を新規に導入して、経験的報酬とその期待値との乖離を制限する。
累積レグレットをサイクルごとの寄与に分解し、尾確率不等式と確率的支配を用いて期待値のずれをバウンドすることで、レグレットバウンドを導出する。
対数的レグレットスケーリングにおける定数要因は、真のMDPと代替モデル間の重み付きカルバック・ライブラー発散を含む最適化問題の解として特徴づけられる。
分析により、学習問題の情報複雑度が、特に周辺カルバック・ライブラー発散を通じて、パラメータ空間の幾何学と関連づけられる。

実験結果

リサーチクエスチョン

RQ1共役性や積形の事前分布を仮定しないパラメトリックMDPにおいて、トマソンサンプリングが対数的レグレットを達成できるか。
RQ2特にカルバック・ライブラー幾何学を特徴とするパラメータ空間の構造が、MDPにおけるトマソンサンプリングのレグレットスケーリングにどのように影響を与えるか。
RQ3パラメトリック設定下で、1つの状態遷移の観測が、未観測のMDP部分の学習にどの程度寄与できるか。
RQ4後方分布のサンプリング頻度（サイクル長）が、パラメトリックMDPにおける探索と活用のバランスをどのように調整するか。
RQ5KL発散によって測定されるMDPの情報複雑度が、レグレットバウンドにおける定数要因にどのように影響を与えるか。

主な発見

最適でない行動の選択回数は、一般のパラメータ空間および非共役事前分布に対しても、時間に対して高確率で対数的に増加する。
レグレットバウンドのオーダーは $ Oig(ig(rac{T}{ar{ au}_{c^{ullet}}}ig)^{1/2} ig( rac{ au_{ ext{max}}}{ar{ au}_{c^{ullet}}} ig)^{1/2} ig) $ であり、$ ar{ au}_{c^{ullet}} $ は最適方策の期待サイクル長を表す。
対数的レグレットスケーリングにおける定数要因は、真のMDPと代替モデル間の重み付きカルバック・ライブラー発散を含む最適化問題の解として特定される。
MDPの学習における情報複雑度は、パラメータ空間のカルバック・ライブラー幾何学に自然に符号化されており、状態遷移間の構造的依存関係を反映している。
パラメータ空間が低次元であっても、状態空間が大きければ、平坦なバンディット手法と比較して著しく改善されたレグレットスケーリングを達成する。
本分析により、閉形式の事前分布構造に依存しない、初めてのギャップ依存的・問題依存的レグレットバウンドがMDPにおけるトマソンサンプリングに対して確立された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。