QUICK REVIEW

[論文レビュー] On Lower Bounds for Regret in Reinforcement Learning

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Aug 9, 2016

Advanced Bandit Algorithms Research参考文献 4被引用数 49

ひとこと要約

この論文は強化学習におけるレギュレートの下界を再検討し、BartlettとTewari（2009年）が提唱した $Ω(D_{\text{ow}}\sqrt{SAT})$ の下界が、厳密な証明を欠いていることを示している。代わりに、標準的な集中不等式を用いて $Ω(\sqrt{D_{\text{ow}}SAT})$ の証明可能な下界を確立し、よりきつい $D_{\text{ow}}\sqrt{SAT}$ スケーリングが達成可能でない可能性があり、既存の上界がすでに最適である可能性を示唆している。

ABSTRACT

This is a brief technical note to clarify the state of lower bounds on regret for reinforcement learning. In particular, this paper: - Reproduces a lower bound on regret for reinforcement learning, similar to the result of Theorem 5 in the journal UCRL2 paper (Jaksch et al 2010). - Clarifies that the proposed proof of Theorem 6 in the REGAL paper (Bartlett and Tewari 2009) does not hold using the standard techniques without further work. We suggest that this result should instead be considered a conjecture as it has no rigorous proof. - Suggests that the conjectured lower bound given by (Bartlett and Tewari 2009) is incorrect and, in fact, it is possible to improve the scaling of the upper bound to match the weaker lower bounds presented in this paper. We hope that this note serves to clarify existing results in the field of reinforcement learning and provides interesting motivation for future work.

研究の動機と目的

強化学習におけるレギュレートの下界の現状、特にBartlettとTewari（2009年）の予想された下界の妥当性を明確にすること。
REGAL論文（BartlettとTewari、2009年）の定理6の証明技法が、標準的な解析手法では成立しないという点を示すこと。
標準的な集中不等式を用いて、直径 $D_{\text{ow}}$ のMDPにおけるレギュレートに対して、$Ω(\sqrt{D_{\text{ow}}SAT})$ の証明可能な下界を確立すること。
元の証明スケッチにおける二重数え上げの問題に基づき、予想された $Ω(D_{\text{ow}}\sqrt{SAT})$ の下界がおそらく誤りであると主張すること。
Conjecture 1（$Ω(\sqrt{D_{\text{ow}}SAT})$ が最良の下界である可能性）を提示し、今後の研究を刺激すること。

提案手法

UCRL2論文（Jakschら、2010年）と同様の標準的集中不等式および情報理論的議論を用いて、強化学習におけるレギュレートの下界を再現すること。
BartlettとTewari（2009年）の定理6の誤った証明構造を分析し、$O(D_{\text{ow}})$ ステップにわたり、1つの悪い行動が繰り返し数え上げられる二重数え上げの誤りを特定すること。
多腕バンディットの下界（$\Omega(\sqrt{AT})$）を基盤とし、MDPの直径 $D_{\text{ow}}$ と状態・行動数 $S,A$ を組み合わせることで、MDPへの拡張を行うこと。
反例を用いて、$D_{\text{ow}}\sqrt{SAT}$ の予想が、同じレギュレート値が複数のステップにわたり重複して数え上げられるため、整合性のないレギュレートの集計を引き起こすことを示すこと。
最近の有限ホライズンMDPにおけるPAC境界（DannとBrunskill、2015年）と比較し、同様のレギュレートスケーリング $\Theta(\sqrt{HT})$ が出現することを示し、$\sqrt{D_{\text{ow}}SAT}$ スケーリングがタイトであることを支持すること。

実験結果

リサーチクエスチョン

RQ1BartlettとTewari（2009年）が提唱した $\Omega(D_{\text{ow}}\sqrt{SAT})$ のレギュレート下界は、標準的手法を用いて厳密に証明可能か？
RQ2REGAL論文（BartlettとTewari、2009年）の定理6の証明には論理的欠陥があるか、特にレギュレートが時間経過とともにどのように蓄積されるかに問題があるか？
RQ3直径 $D_{\text{ow}}$ のMDPにおけるレギュレートに対して、$\Omega(\sqrt{D_{\text{ow}}SAT})$ の証明可能な下界を確立できるか？
RQ4$D_{\text{ow}}\sqrt{SAT}$ スケーリングは、既存の上界がすでに最適である可能性を示唆するほど、改善不可能か？
RQ5最近の有限ホライズンMDPにおけるPAC境界は、$\sqrt{HT}$ のレギュレートスケーリングを支持するか？これは $\sqrt{D_{\text{ow}}SAT}$ が最良の下界であることを示唆する。

主な発見

BartlettとTewari（2009年）の定理6の証明は、$O(D_{\text{ow}})$ ステップにわたりレギュレートの集計に二重数え上げの誤りがあるため、標準的な解析手法では成立しない。
標準的な集中不等式と多腕バンディットの下界を基盤として、強化学習におけるレギュレートに対して $Ω(\sqrt{D_{\text{ow}}SAT})$ の厳密な下界を確立した。
元の証明スケッチにおける二重数え上げの問題に基づき、予想された $Ω(D_{\text{ow}}\sqrt{SAT})$ の下界は、同じ値の不足を軌道全体にわたり複数回数え上げることで、過剰に評価されている可能性がある。
分析の結果、$\tilde{O}(\sqrt{DSAT})$ のような既存のレギュレート上界が、新たに証明された下界と一致するため、すでに最適である可能性がある。
最近の有限ホライズンMDPにおけるPAC解析（DannとBrunskill、2015年）の支援的証拠として、$\Theta(\sqrt{HT})$ のレギュレートスケーリングが出現し、$\sqrt{D_{\text{ow}}SAT}$ と整合的であり、$D_{\text{ow}}\sqrt{SAT}$ が正しいスケーリングでないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。