[論文レビュー] Near Optimal Exploration-Exploitation in Non-Communicating Markov Decision Processes
TUCRL は、前知識なしで非連結または弱く連結な有限MDPを扱う楽観的オンラインRLアルゴリズムで、問題依存の後悔境界を達成し、欠陥設定やマルチチェーン設定において従来法を上回る。
While designing the state space of an MDP, it is common to include states that are transient or not reachable by any policy (e.g., in mountain car, the product space of speed and position contains configurations that are not physically reachable). This leads to defining weakly-communicating or multi-chain MDPs. In this paper, we introduce ucrl, the first algorithm able to perform efficient exploration-exploitation in any finite Markov Decision Process (MDP) without requiring any form of prior knowledge. In particular, for any MDP with $S^{ exttt{C}}$ communicating states, $A$ actions and $Γ^{ exttt{C}} \leq S^{ exttt{C}}$ possible communicating next states, we derive a $\widetilde{O}(D^{ exttt{C}} \sqrt{Γ^{ exttt{C}} S^{ exttt{C}} AT})$ regret bound, where $D^{ exttt{C}}$ is the diameter (i.e., the longest shortest path) of the communicating part of the MDP. This is in contrast with optimistic algorithms (e.g., UCRL, Optimistic PSRL) that suffer linear regret in weakly-communicating MDPs, as well as posterior sampling or regularised algorithms (e.g., REGAL), which require prior knowledge on the bias span of the optimal policy to bias the exploration to achieve sub-linear regret. We also prove that in weakly-communicating MDPs, no algorithm can ever achieve a logarithmic growth of the regret without first suffering a linear regret for a number of steps that is exponential in the parameters of the MDP. Finally, we report numerical simulations supporting our theoretical findings and showing how TUCRL overcomes the limitations of the state-of-the-art.
研究の動機と目的
- 誤指定されたまたは到達不能な状態を持つMDPにおける堅牢な強化学習の動機づけ(非連絡、弱連絡、多チェーンなど)。
- バイアススパンや通信構造に関する事前知識なしに学習するアルゴリズムの開発。
- 真の連結サブセットに適応する後悔保証を提供し、最先端手法と比較する。
提案手法
- TUCRL を紹介する。経験ベルヌーイ境界を用いて報酬と遷移の信頼集合を構築する、楽観的なオンラインRLアルゴリズムである。
- 探索された状態から連結状態集合S^C_kと遷移状態集合S^T_kを推定し、達成不能な状態への起こりえない遷移を剪定する。
- 閾値 rho_t に基づいて遷移をトランジエント状態への可能性の低い遷移を切り捨てることにより、代替のもっともらしい MDP集合を定義し、この集合上で楽観的計画問題を解く。
- 切り詰められた妥当性集合内で楽観的方策を計算するために拡張値反復を用いる。
- 訪問が不十分な対に対して探索を継続させ、誤指定された領域での停滞を防ぐためにエピソード停止条件を変更する。
- 通信直径 D^C、通信状態数 S^C、最大次状態サポート Gamma^C、時間 horizon T に対してスケールする理論的後悔保証を提供する。
実験結果
リサーチクエスチョン
- RQ1連結サブセットから開始する場合に、弱連結またはマルチチェーンMDPにおいて事前知識なしで最適またはほぼ最適な方策を学習できるか?
- RQ2連結MDPと弱連結MDPにおけるTUCRLの後悔挙動はどうか、UCRLおよびSCALと比較してどうか?
- RQ3MDPパラメータに対する指数的依存なしに、弱連結MDPで対数的後悔を達成する根本的な制限はあるか?
- RQ4誤指定/取り除き可能な状態は探索とサンプル効率にどう影響し、TUCRLはそれに適応できるか?
主な発見
- TUCRL は弱連結MDPにおいて O~(D^C sqrt(Gamma^C S^C A T)) の後悔境界を達成し、追加の多項対数因子と線形の初期項を伴う。
- 連結MDPでは、TUCRL は定数まで UCRL に一致し、有限のウォームアップ期間の後、問題依存的な対数後悔を達成する。
- 弱連結MDPでは、TUCRL はサブ線形の sqrt(T) 後悔を達成し、MDPパラメータに対して多項的依存を示す。
- 本論文は否定的結果を示す:MDPパラメータに対する指数的依存なしに、弱連結MDPで対数的後悔を達成できるアルゴリズムは存在しない。
- 誤指定状態を含むタクシー、連結タクシー、および3状態領域での実験は、理論的所見を裏付け、TUCRL が既存手法の限界を克服することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。