[論文レビュー] FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs
FLAMBE は低秩 MDP の表現学習を研究し、学習された埋め込みがサンプル効率の良いモデルベース強化学習を可能にし、証明可能な保証を提供することを証明し、既知の特徴量がない状態で表現を学習する探索重視のアルゴリズムを導入します。
In order to deal with the curse of dimensionality in reinforcement learning (RL), it is common practice to make parametric assumptions where values or policies are functions of some low dimensional feature space. This work focuses on the representation learning question: how can we learn such features? Under the assumption that the underlying (unknown) dynamics correspond to a low rank transition matrix, we show how the representation learning question is related to a particular non-linear matrix decomposition problem. Structurally, we make precise connections between these low rank MDPs and latent variable models, showing how they significantly generalize prior formulations for representation learning in RL. Algorithmically, we develop FLAMBE, which engages in exploration and representation learning for provably efficient RL in low rank transition models.
研究の動機と目的
- 次元の呪いを緩和するための RL における表現学習の動機付け。
- 低秩 MDP と潜在変数モデルの関係を形式化して表現学習を正当化する。
- 埋め込みを学習し報酬を最大化する方策を設計するモデルベースの探索アルゴリズム Flambe を開発する。
- realizability の下で環境モデルと表現を学習する統計的・計算的保証を提供する。
提案手法
- φ と μ という埋め込み関数を用いて低秩 MDP を定式化し、T(x'|x,a)=<φ(x,a), μ(x')> を満たし、φ と μ のノルムを有界と仮定する。
- Φ と Υ の二つの関数族と realizability の仮定 φ*_h ∈ Φ および μ*_h ∈ Υ を導入して学習を扱いやすくする。
- 報酬なし探索目的と、一歩先のダイナミクスをポリシー間で再現する学習モデル Ű M̂ = (φ̂, μ̂) の一様精度基準を定義する。
- フラムベ(Flambe)を提案する。埋め込みを学習する最大尤度オラクル(Mle)を適用する転移を収集し、モデルベースのプランナーを用いて探索的方策を設計する反復的アルゴリズム。
- 学習した特徴空間の被覆を最大化する楕円状ポテンシャルに触発されたプランニングのサブルーチンを開発し、混合探索方策を構築する。
- 2つのアルゴリズム変種を提示する:一般的な低秩 MDP バージョンと、サンプリンク factorization バージョンで、サンプル複雑度が異なる。
実験結果
リサーチクエスチョン
- RQ1未知の埋め込みがある場合でも表現学習を通じて低秩 MDP を効果的に学習できるか?
- RQ2探索をどのように導くことで学習した特徴空間の網羅的なカバレッジを達成し、遷移ダイナミクスを正確に特定できるか?
- RQ3 realizability の下で環境モデルと表現を学習する際の統計的保証は何か?
- RQ4低秩 MDP の表現力と限界は、学習性と計画性の観点でブロック MDP や潜在変数モデルとどう比較されるか?
- RQ5埋め込み次元 d と潜在次元 dLV など、異なる因子分解仮定の下で表現を学習する際の計算・サンプル複雑度はどうなるか?
主な発見
| Algorithm | Setting | Sample Complexity | Computation |
|---|---|---|---|
| Pcid (Du et al., 2019b) | block MDP | d^4 H^2 K^4 (1/η^4 γ^2 + 1/ε^2) | Oracle efficient |
| Homer (Misra et al., 2019) | block MDP | d^8 H^4 K^4 (1/η^3 + 1/ε^2) | Oracle efficient |
| Olive (Jiang et al., 2017) | low Bellman rank | d^2 H^3 K / ε^2 | Inefficient |
| Sun et al. (2019) | low Witness rank | d^2 H^3 K / ε^2 | Inefficient |
| Flambe (this paper) | low rank MDP | d^7 K^9 H^22 / ε^10 | Oracle efficient |
- Flambe は realizability の下で低秩 MDP モデルの学習を統計的・計算的に効率化する。
- 低秩 MDP はブロック MDP より表現力が高く、Flambe は潜在変数の視点を活用して表現学習を可能にする。
- Assumption 1( realizability )とモデルベースのプランナーの下で、Flambe は多項式時間で動作する一様精度の学習モデルを達成し、軌道数はおおよそ H^22 K^9 d^7 / ε^10(対数項を除く)となる。
- Flambe の simplex factorization に基づく変種は、地平線 H、行動空間 K、ε の依存性を改善し、複雑さは H^11 K^5 dLV^5 / ε^3(対数項を除く)としてスケールする。
- 到達性に関する改良により、潜在変数次元 dLV が有界になり、Flambe はサンプリングなしで動作するか、サンプル要件を減らすことができる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。