QUICK REVIEW

[論文レビュー] Minimax Regret Bounds for Reinforcement Learning

Mohammad Gheshlaghi Azar, Ian Osband|arXiv (Cornell University)|Mar 16, 2017

Advanced Bandit Algorithms Research参考文献 20被引用数 50

ひとこと要約

本論文は有限ホライズンMDPに対して Bernstein-based 探索ボーナスを組み込んだ UCBVI を導入し、従来のスケーリングを改善したほぼ最適なミニマックス後悔境界を達成し、大きな T に対して対数因子の差で下界と一致する。

ABSTRACT

We consider the problem of provably optimal exploration in reinforcement learning for finite horizon MDPs. We show that an optimistic modification to value iteration achieves a regret bound of $ ilde{O}( \sqrt{HSAT} + H^2S^2A+H\sqrt{T})$ where $H$ is the time horizon, $S$ the number of states, $A$ the number of actions and $T$ the number of time-steps. This result improves over the best previous known bound $ ilde{O}(HS \sqrt{AT})$ achieved by the UCRL2 algorithm of Jaksch et al., 2010. The key significance of our new results is that when $T\geq H^3S^3A$ and $SA\geq H$, it leads to a regret of $ ilde{O}(\sqrt{HSAT})$ that matches the established lower bound of $Ω(\sqrt{HSAT})$ up to a logarithmic factor. Our analysis contains two key insights. We use careful application of concentration inequalities to the optimal value function as a whole, rather than to the transitions probabilities (to improve scaling in $S$), and we define Bernstein-based "exploration bonuses" that use the empirical variance of the estimated values at the next states (to improve scaling in $H$).

研究の動機と目的

有限ホライズン MDP における証明可能に最適な探索の必要性を動機づける。
厳密な後悔保証を伴う楽観的なモデルベース RL アルゴリズムを開発する。
前例よりも状態とホライズンに対する後悔の依存を改善する。
Bernstein-based 探索ボーナスにより大きな T に対してほぼ最適な後悔を実現できることを示す。

提案手法

UCBVI（Upper Confidence Bound Value Iteration）を提案し、V* に対する高確率上界として楽観的な値関数を生み出す。
ボーナス設計を2つ：bonus_1 は Chernoff-Hoeffding 界、bonus_2 は Bernstein-Freedman スタイルのボーナスで、次状態の値の経験分散に基づく。
最適値関数に対する集中不等式を適用して後悔を分析し、再帰的な Bellman 型の Law of Total Variance を用いて分散和を境界付けする。
Bernstein 不等式とマルチネール集中性を用いて推定誤差と探索ボーナスを境界化し、S と H への依存を低減する。
各エピソードごとに既知の MDP を解く場合と同程度の計算コストで実現性を示し、スケーラブルな実装案を議論する。

実験結果

リサーチクエスチョン

RQ1不確実性に直面しての楽観主義は、厳密な後悔を伴う有限ホライズン MDP で証明可能に最適な探索を達成できるか。
RQ2遷移確率より値関数に集中する楽観的モデルベース手法が達成可能な厳密な後悔境界は何か。
RQ3 Bernstein-based 探索ボーナスは後悔の H 依存と状態空間サイズ S の影響をどう変えるか。
RQ4大規模な総ステップ T に対して有限ホライズン MDP でミニマックス下界と一致させることは可能か。

主な発見

UCBVI-CH は高確率での後悔を S 依存を sqrt(S) に改善する形で境界付け、H^{3/2} および S^2 項にスケールする境界を達成する。
UCBVI-BF は Bernstein-based ボーナスを用い、後悔境界が大きな T のとき HSAT^{1/2} にスケールし、T が大きく SA ≥ H のとき対数因子の範囲でミニマックス下界と一致する。
大きな T の場合、 T ≥ H^3 S^3 A および SA ≥ H の条件下で境界は ilde{O}(√(HSAT)) となる。
主要な技術要素は、最適値関数への集中と次状態の値の経験分散に基づく探索ボーナスで、H の依存性を改善して √H まで低減する。
どちらのアルゴリズムも計算的に実現可能で、エピソードあたりのコストは既知の MDP を解くのと同程度である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。