Skip to main content
QUICK REVIEW

[論文レビュー] Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms

Chi Jin, Qinghua Liu|arXiv (Cornell University)|Feb 1, 2021
Machine Learning and Algorithms参考文献 48被引用数 29
ひとこと要約

Bellman Eluder (BE) dimensionをベルマン残差の分布的Eluder次元として定義することにより、機能近似を伴うRLの統一的複雑性指標を提供し、低BE次元が多くの実現可能なRLクラスを包含することを示し、Golf最適化ベースのアルゴリズム( Olive を含む)を提示して、状態-行動サイズに依存しない多項式のサンプル複雑性を実現します。

ABSTRACT

Finding the minimal structural assumptions that empower sample-efficient learning is one of the most important research directions in Reinforcement Learning (RL). This paper advances our understanding of this fundamental question by introducing a new complexity measure -- Bellman Eluder (BE) dimension. We show that the family of RL problems of low BE dimension is remarkably rich, which subsumes a vast majority of existing tractable RL problems including but not limited to tabular MDPs, linear MDPs, reactive POMDPs, low Bellman rank problems as well as low Eluder dimension problems. This paper further designs a new optimization-based algorithm -- GOLF, and reanalyzes a hypothesis elimination-based algorithm -- OLIVE (proposed in Jiang et al., 2017). We prove that both algorithms learn the near-optimal policies of low BE dimension problems in a number of samples that is polynomial in all relevant parameters, but independent of the size of state-action space. Our regret and sample complexity results match or improve the best existing results for several well-known subclasses of low BE dimension problems.

研究の動機と目的

  • 機能近似を伴うサンプル効率の良いRLを実現するための最小限の構造的仮定を特定する。
  • 低BE次元がBellman rankやEluder次元など、既知の実現可能なRLクラスを含み新たなクラスも導入することを示す。
  • 状態-行動空間のサイズに依存しない実証可能なサンプル効率を備えたアルゴリズムを設計する。

提案手法

  • Bellman Eluder (BE) dimensionを、ステップ間のBellman残差の分布的Eluder次元として定義する。
  • Golfアルゴリズムを提案する。これは、楽観的価値関数を選択し、収集データに対する局所回帰制約を用いて信頼集合を更新する最適化ベースの方法である。
  • 一般化された完備性仮定と realizability を用いて、後悔とサンプル複雑性の境界を保証する。
  • BEフレームワーク内で既存の仮説消去アルゴリズム Olive を再分析し、性能を比較する。
  • BE次元が低いBellman rankと低Eluder次元を包含することを示す関係性を確立し、カーネル反応型POMDPsのような新しいクラスを含むことを示す。

実験結果

リサーチクエスチョン

  • RQ1機能近似を伴うサンプル効率の良い RL を実現するための最小の構造的複雑さとは何か。
  • RQ2BE次元は低いBellman rankや低Eluder次元など、既存の解がある実現可能なRLクラスを統一・拡張するのか。
  • RQ3BEベースの仮定の下で、状態-行動空間のサイズに依存しない多項式時間のサンプル複雑性を実現できる実用的なアルゴリズムは存在するのか。
  • RQ4BEベースの仮定と比較した場合、GolfとOliveの性能は既存の結果と比べてどうなるのか。

主な発見

  • 低BE次元は、既知の多くの解けるモデルおよび新しいモデルを含む豊かなRL問題クラスを定義する。
  • Golfは、BE次元と horizon に対して多項式に拡張する後悔とサンプル複雑性の境界を達成し、状態-行動空間サイズには依存しない。
  • Golfは、 realizability と generalized completeness の下で、BE次元とカバリング数に結びつくサンプル複雑性でほぼ最適な方策を得る。
  • Olive も低BE次元問題を学習できるが、同様の仮定の下で Golf に比べサンプル複雑性が劣る。
  • BE次元は低いBellman rankと低Eluder次元を包含し、それらの二つのクラスの並集合には含まれない低BE次元の問題が存在する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。