[論文レビュー] Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism
本稿では、変動する報酬と遷移が変動予算で制限される非定常なマルコフ決定過程における強化学習のための SWUCRL2-CW および BORL アルゴリズムを提案する。非定常な強化学習における課題を克服するため、新たな信頼区間拡張技術と強化された楽観主義を導入し、変動予算の事前知識を必要とせずに、動的リグレットの上限を $ ilde{O}(D_{ ext{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4})$ に達成する。
We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under drifting non-stationarity, i.e., both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, i.e., without knowing the variation budgets. Notably, learning non-stationary MDPs via the conventional optimistic exploration technique presents a unique challenge absent in existing (non-stationary) bandit learning settings. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism.
研究の動機と目的
- 報酬と遷移分布の両方が時間とともに変化する非定常なマルコフ決定過程における学習の課題に対処すること。
- 従来の楽観的探索が非定常な強化学習で失敗するのを防ぐために、新たな信頼区間拡張メカニズムを導入すること。
- 変動予算の事前知識が不要なパラメータフリーのアルゴリズム(BORL)を設計し、適応的にハイパーパrameterを調整すること。
- 非定常なマルコフ決定過程において、変動予算が既知または未知の場合のタイトな動的リグレットの上限を確立すること。
提案手法
- スライディングウィンドウ型UCBアルゴリズムに信頼区間拡張を組み合わせた SWUCRL2-CW を導入し、非定常なダイナミクスに対処するための追加的楽観主義を組み込む。
- 各ブロックが固定ウィンドウ長 $W_i$ と信頼区間拡張パラメータ $\eta_i$ を用いて価値関数を推定するブロックベース構造を採用する。
- BORL では EXP3.P アルゴリズムを用いて、ブロック間で $W_i$ と $\eta_i$ を適応的に選択し、パラメータ選択を敵対的バンディット問題として扱う。
- 信頼区間拡張により不確実性区間を拡大し、環境の変動が進んでも楽観的であることを保証する。これは非定常なマルコフ決定過程において特に重要である。
- リグレットの分解を、固定パラメータによるリグレットと EXP3.P を用いた適応的パラメータ選択によるリグレットの2つに分ける。
- EXP3.P の $ ilde{O}(\sqrt{TH})$ リグレット上限を適応的成分に活用し、SWUCRL2-CW からの理論的境界と組み合わせる。
実験結果
リサーチクエスチョン
- RQ1報酬と遷移が時間とともに変化する非定常なマルコフ決定過程において、楽観的探索を効果的に拡張できるか?
- RQ2非定常バンディットや区分定常MDPの標準的手法が、内生性を有する完全なRL設定ではなぜ失敗するのか?
- RQ3変動予算の事前知識がなくても、非定常環境で楽観的性を維持できるように信頼区間をどのように拡張できるか?
- RQ4未知の非定常性に適応しつつ、サブ線形な動的リグレットを維持できるパラメータフリーのアルゴリズムを設計できるか?
- RQ5非定常なマルコフ決定過程における動的リグレットを最小化するための、ウィンドウ長と信頼区間拡張の最適なトレードオフは何か?
主な発見
- 変動予算が既知の場合、SWUCRL2-CW アルゴリズムは動的リグレットの上限を $\tilde{O}\left(\frac{B_p W}{\eta} + B_r W + D_{\text{max}}\left[B_p W + \frac{S\sqrt{A}T}{\sqrt{W}} + T\eta + \frac{SAT}{W} + \sqrt{TH}\right]\right)$ に達成する。
- BORL アルゴリズムは、EXP3.P を用いてウィンドウ長と信頼区間拡張を適応的に調整することで、同様のリグレット上限をパラメータフリーで達成する。
- BORL の動的リグレットは $\tilde{O}\left(D_{\text{max}}(B_r + B_p + 1)^{1/4} S^{2/3} A^{1/2} T^{3/4}\right)$ で有界であり、対数要因を除いて最適レートに一致する。
- 信頼区間拡張技術は、環境の変動により標準的な楽観主義が失敗する非定常なマルコフ決定過程で楽観的性を維持するために不可欠である。
- 分析から、非定常バンディットや区分定常MDPの手法を単純に適応すると、完全なRL設定では悪いリグレット境界が得られることを示している。
- 理論的枠組みにより、提案手法が時間 $T$、状態空間 $S$、行動空間 $A$、および変動予算 $B_r, B_p$ に関してほぼ最適なリグレットスケーリングを達成することが確立された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。