QUICK REVIEW

[論文レビュー] Episodic Reinforcement Learning in Finite MDPs: Minimax Lower Bounds Revisited

Omar Darwiche Domingues, Pierre Ménard|arXiv (Cornell University)|Oct 7, 2020

Evolutionary Algorithms and Applications被引用数 23

ひとこと要約

本稿は、段階に依存する遷移をもつ有限MDPにおけるエピソード的強化学習のための新しいミニマックス下界を確立し、非定常MDPのための最初の厳密な下界を提示する。新しいクラスの難易度の高いMDPを導入することで、(ε, δ)-PAC最良方策同定のためのタイトなΩ((H³SA/ε²) log(1/δ))のサンプル複雑度下界と、それに一致するΩ(√(H³SAT))のレグレット下界を導出する。結果は情報理論的道具と構造化された報酬差を有するA-aryツリーに基づく構成を用いて証明され、この設定における非定常MDPに対する最初の厳密な下界を提供する。

ABSTRACT

In this paper, we propose new problem-independent lower bounds on the sample complexity and regret in episodic MDPs, with a particular focus on the non-stationary case in which the transition kernel is allowed to change in each stage of the episode. Our main contribution is a novel lower bound of $\\Omega((H^3SA/\\epsilon^2)\\log(1/\\delta))$ on the sample complexity of an $(\\varepsilon,\\delta)$-PAC algorithm for best policy identification in a non-stationary MDP. This lower bound relies on a construction of "hard MDPs" which is different from the ones previously used in the literature. Using this same class of MDPs, we also provide a rigorous proof of the $\\Omega(\\sqrt{H^3SAT})$ regret bound for non-stationary MDPs. Finally, we discuss connections to PAC-MDP lower bounds.

研究の動機と目的

段階に依存する（非定常な）遷移核をもつMDPにおけるエピソード的強化学習のためのタイトなミニマックス下界を確立することで、文献におけるギャップを埋める。
同一の難易度の高いMDPクラスを用いて、サンプル複雑度とレグレット下界の両方を統一的かつ厳密に、完全に証明するフレームワークを提供する。
従来の研究が定常MDPに限定されていたのを拡張し、非定常エピソード的MDPにおける(ε, δ)-PAC最良方策同定のための最初のサンプル複雑度下界を証明する。
既存のアルゴリズムの最適性を検証するため、導出された下界がBPI-UCBVIやオプティミスティックQ学習といった最先端のアルゴリズムの上界と一致することを示す。

提案手法

段階に依存する報酬構造を有するA-aryツリーに基づく、非定常性を模倣するための新しい難易度の高いMDPクラスを構築する。
KLダイバージェンスとピンスカーニュの不等式を含む情報理論的道具を用い、異なるMDPインスタンス間での方策性能を関連付ける。
最適方策が隠れた段階h*、葉ℓ*、行動a*に依存するMDPの族M(h*,ℓ*,a*)を定義し、段階h*における(sℓ*, a*)への訪問回数の期待値を分析する。
コーシー・シュバルツの不等式とKLダイバージェンスの分解を用いて、すべてのMDPインスタンスにおける重要な状態への訪問回数の期待値の上界を導出する。
摂動パラメータεを最適化することで、最大レグレットの下界を最大化し、Ω(√(H³SAT))の下界を得る。
MDP分布間の全変動距離と方策同定の誤り確率との関係を用いて、サンプル複雑度の下界を証明する。

実験結果

リサーチクエスチョン

RQ1段階に依存する遷移をもつエピソード的MDPにおける(ε, δ)-PAC最良方策同定のミニマックスサンプル複雑度は何か？
RQ2非定常エピソード的MDPに対して、Ω(√(H³SAT))のタイトなレグレット下界を厳密に確立できるか？
RQ3遷移が段階に応じて変化する場合と定常な場合とで、難易度の高いMDPの構成はどのように異なるか？
RQ4Ω(√(H³SAT))のレグレット下界はタイトであり、かつ既存のオプティミスティックアルゴリズムの性能と一致するか？
RQ5同じ難易度の高いMDP構成を用いて、サンプル複雑度とレグレットの両方の下界を導出できるか？

主な発見

本稿は、非定常エピソード的MDPにおける(ε, δ)-PAC最良方策同定のための新しいミニマックス下界Ω((H³SA/ε²) log(1/δ))を確立した。
非定常エピソード的MDPにおけるΩ(√(H³SAT))のレグレット下界の最初の厳密な証明を提供し、Jinら（2018）の主張を完全な証明なしに提示したものの、それを裏付ける。
下界は、従来の定常遷移を仮定した構成とは異なり、段階に依存する報酬構造を有するA-aryツリーに基づく新しい難易度の高いMDPクラスを用いて導出された。
同じ難易度の高いMDP構成が、サンプル複雑度とレグレットの両方の下界を導出可能であり、2つの主要な性能指標の分析を統一する。
導出された下界は、既存のアルゴリズムの上界と一致する：サンプル複雑度についてはBPI-UCBVI、レグレットについてはオプティミスティックQ学習であり、最適性を示唆する。
木の深さdに関する仮定に対して結果が頑健であり、d ≤ H/3であれば下界はΩ(√(H³SAT))のままであり、それ以上になると指数的に劣化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。