QUICK REVIEW

[論文レビュー] Variational Regret Bounds for Reinforcement Learning

Pratik Gajane, Ronald Ortner|arXiv (Cornell University)|May 14, 2019

Advanced Bandit Algorithms Research参考文献 13被引用数 27

ひとこと要約

この論文は、報酬と遷移確率が時間とともに変化する非定常的なマルコフ決定過程（MDP）を対象とした強化学習アルゴリズムである Variation-aware UCRL を提案する。時間変動する MDP における最初の変動的レジームバウンドを提供し、$\tilde{\mathcal{O}}(V^{1/3}T^{2/3}DS\sqrt{A})$ の高確率レジームを達成する。ここで $V$ は MDP 内の総変動を表し、変化が徐々に進行する場合に既存の境界が自明になるのを改善する。

ABSTRACT

We consider undiscounted reinforcement learning in Markov decision processes (MDPs) where both the reward functions and the state-transition probabilities may vary (gradually or abruptly) over time. For this problem setting, we propose an algorithm and provide performance guarantees for the regret evaluated against the optimal non-stationary policy. The upper bound on the regret is given in terms of the total variation in the MDP. This is the first variational regret bound for the general reinforcement learning setting.

研究の動機と目的

報酬と遷移確率が時間とともに変化する MDP における強化学習を扱い、現実の非定常環境をモデル化すること。
急激な変化や固定された変化を仮定するのではなく、MDP の変動の程度に適応するアルゴリズムを構築すること。
変化の回数 $L$ ではなく、MDP の総変動 $V$ に依存する高確率レジームバウンドを提供し、変化が徐々に進行する場合のロバストネスを向上させること。
リスタートを組み込んだ UCRL フレームワークに、変動に適応した楽観的戦略を統合することで、非定常設定におけるタイトな性能保証を可能にすること。

提案手法

報酬と遷移確率の推定された総変動 $V$ に基づいてリスタートをスケジューリングする、リスタート付き UCRL の変種である Variation-aware UCRL を提案する。
不確実性下での楽観的計画を用い、報酬と遷移確率の信頼区間を維持し、境界を総変動 $V$ に応じて調整する。
バイアススパン分解を適用し、直径 $D$ を用いて楽観的最適方策と真の最適方策の差をバウンドする。
観測された遷移から構成される一連の妥当な MDP の集合 $\hat{\mathcal{M}}$ を導入し、真の MDP の直径が未知であってもバイアススパン $\tilde{\Lambda}$ のバウンドを可能にする、新しい分析技術を提示する。
集中不等式と変動依存的楽観的戦略を組み合わせることで、$V$ が小さい限り非線形レジームが保証されるようにレジームバウンドを導出する。
楽観的価値推定値が $\tilde{\rho}^0 + V^r_T + D V^p_T$ でバウンドされることを示す重要な補題を確立する。ここで $\tilde{\rho}^0$ は変動がゼロの下での楽観的価値を表す。

実験結果

リサーチクエスチョン

RQ1報酬と遷移確率が時間変動する MDP において、変化が急激ではなく徐々に進行する場合でも、強化学習アルゴリズムが非線形レジームを達成できるか？
RQ2変化の回数 $L$ ではなく、MDP の総変動 $V$ に依存するレジームバウンドを導出可能か？これにより、変化が徐々に進行する場合のロバストネスが向上するか？
RQ3UCRL アルゴリズムをどのように変更すれば、変動に適応した楽観的戦略とリスタートスケジューリングを統合し、非定常性下でも性能を維持できるか？
RQ4非定常 MDP における探索と適応の根本的トレードオフは何か？そして、変動に基づくバウンドによってどのように捉えられるか？

主な発見

提案された Variation-aware UCRL アルゴリズムは、高確率で $\tilde{\mathcal{O}}(V^{1/3}T^{2/3}DS\sqrt{A})$ のレジームバウンドを達成し、$T$ と $V$ に関して最適である。
変化の回数 $L$ が大きく、または変化が徐々に進行する場合、従来の $\tilde{\mathcal{O}}(L^{1/3}T^{2/3}DS\sqrt{A})$ の境界よりも改善される。
変動 $V$ が小さい場合、$L$ が $T^{1/3}$ のオーダーで増加してもレジームは非線形のままであり、従来の境界が自明になるような状況でも成立する。
分析により、真の MDP の直径が無限大であっても、観測された遷移から構成される妥当な MDP の集合 $\hat{\mathcal{M}}$ の最大直径 $\hat{D}$ を用いて、楽観的 MDP のバイアススパンをバウンドできることを示した。
重要な技術的補題として、楽観的価値推定値が $\tilde{\rho}^0 + V^r_T + D V^p_T$ でバウンドされることを確立した。ここで $\tilde{\rho}^0$ は変動がゼロの下での楽観的価値を表す。
論文は、真の直径 $D$ によって $\hat{D}$ をバウンドできないことを示し、楽観的 MDP の集合 $\hat{\mathcal{M}}$ に有界でない直径を持つ MDP が含まれ得ることを示唆し、慎重な分析が不可欠であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。