QUICK REVIEW

[論文レビュー] Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model

Gen Li, Yuting Wei|arXiv (Cornell University)|May 26, 2020

Reinforcement Learning in Robotics参考文献 52被引用数 29

ひとこと要約

この論文は、生成モデルを用いたモデルベース強化学習における長年のサンプルサイズ障壁を打ち破り、2つのミニマックス最適なアルゴリズム—摂動付きおよび保守的なモデルベース計画法—を導入することで、割引無限履歴M DPにおける最小サンプル複雑度 $\frac{|Σ||Ρ|}{1-\gamma}$（対数要因を除く）を達成した。さらに、シンプルなモデルベース計画法を用いて、ミニマックス最適な有限履歴M DPへと拡張し、あらゆるサンプルサイズにおいて最初の包括的なミニマックス最適保証を提供した。

ABSTRACT

This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $γ$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-γ)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms -- a perturbed model-based algorithm and a conservative model-based algorithm -- as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-γ}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible).

研究の動機と目的

モデルベース強化学習における長年のサンプルサイズ障壁を解消すること。これまでは、サンプルサイズが $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$ を超える必要があった。
生成モデル下での割引無限履歴M DPにおけるモデルベース計画法のミニマックス最適サンプル複雑度を確立すること。
シンプルなモデルベース計画法を用いて、時不変でない有限履歴M DPに対してもミニマックス最適性を拡張すること。
すべての可能なサンプルサイズにわたる、サンプル複雑度と統計的精度の根本的トレードオフの完全な特徴付けを提供すること。

提案手法

サンプルサイズが $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$ を超える場合にミニマックス最適性を保証する摂動付きモデルベース計画法を提案する。
同じサンプルサイズ条件下で同じミニマックス最適性を達成する保守的モデルベースアルゴリズムを導入する。
$(s,a)$-吸収M DPを用いて、価値関数推定における統計的依存関係を分離する。
ベルンシュタイン型条件下での方策評価における分散を制御するための同値性の議論を用いる。
行列表記とベルマン方程式を用いて、無限履歴および有限履歴設定下での価値関数ダイナミクスを分析する。
テレスコピング和とコーシー・シュワルツ不等式を用いて、有限履歴M DPにおける価値関数系列の成長をバウンディングする。

実験結果

リサーチクエスチョン

RQ1生成モデル下で、モデルベースRLにおけるサンプルサイズ障壁は打ち破れるか？すなわち、サブ線形サンプリング領域でもミニマックス最適性が達成可能か？
RQ2割引無限履歴M DPにおけるモデルベース計画法の最適サンプル複雑度は何か？そして、保証可能な性能で達成可能か？
RQ3シンプルなモデルベース計画法は、有限履歴M DPでミニマックス最適性を達成できるか？もしそうなら、どのような条件下で可能か？
RQ4サブ線形からスーパーライナーまでの全範囲のサンプルサイズを、統計的精度の損失なしにミニマックス最適アルゴリズムがカバーできるか？
RQ5価値関数推定における統計的依存関係はサンプル複雑度にどのように影響するか？そして、これらは効果的に分離可能か？

主な発見

摂動付きモデルベースアルゴリズムは、サンプル複雑度 $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}\right)$ でミニマックス最適性を達成し、従来の $\frac{1}{(1-\gamma)^2}$ の障壁を打ち破った。
保守的モデルベースアルゴリズムも、同じサンプル複雑度条件下でミニマックス最適性を達成しており、アルゴリズム設計の多様性にもかかわらず堅牢性が確認された。
有限履歴M DPでは、シンプルなモデルベース計画法がサンプル複雑度 $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|H^2}{N}\right)$ でミニマックス最適性を達成した。ここで $N$ は各状態行動ペアのサンプル数である。
解析により、無限履歴M DPにおけるミニマックス最適サンプル複雑度が $\widetilde{O}\left(\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}\right)$ であることが確立され、情報理論的下界と一致した。
本論文は、サブ線形領域を含む、すべての可能なサンプルサイズにわたり有効な最初のミニマックス最適保証を提供した。
価値関数系列の成長は $\max_j \|\bm{V}_j^{(l)}\|_\infty \leq (\sqrt{3H})^l H$ でバウンディングされ、提案された枠組み下で有限ステップで収束が保証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。