Skip to main content
QUICK REVIEW

[논문 리뷰] FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Alekh Agarwal, Sham M. Kakade|arXiv (Cornell University)|2020. 06. 18.
Advanced Bandit Algorithms Research참고 문헌 58인용 수 36
한 줄 요약

FLAMBE는 저랭크 MDP에 대한 표현 학습을 연구하여 학습된 임베딩이 샘플 효율적이고 보장 가능한 모델 기반 강화학습을 가능하게 함을 증명하고, 특징을 알 수 없는 상황에서 표현 학습을 위한 탐색 주도 알고리즘을 도입한다.

ABSTRACT

In order to deal with the curse of dimensionality in reinforcement learning (RL), it is common practice to make parametric assumptions where values or policies are functions of some low dimensional feature space. This work focuses on the representation learning question: how can we learn such features? Under the assumption that the underlying (unknown) dynamics correspond to a low rank transition matrix, we show how the representation learning question is related to a particular non-linear matrix decomposition problem. Structurally, we make precise connections between these low rank MDPs and latent variable models, showing how they significantly generalize prior formulations for representation learning in RL. Algorithmically, we develop FLAMBE, which engages in exploration and representation learning for provably efficient RL in low rank transition models.

연구 동기 및 목표

  • 차원 저주를 완화하기 위해 저랭크 동역학 하에서 강화학습을 위한 표현 학습의 필요성과 동기를 제시한다.
  • 저랭크 MDP와 잠재 변수 모델 간의 관계를 형식화하여 표현 학습을 정당화한다.
  • 임베딩을 학습하고 보상 최적 정책을 얻는 모델 기반 탐색 알고리즘 Flambe를 개발한다.
  • 실현가능성 하에서 정확한 환경 모델과 표현 학습에 대한 통계적 및 계산적 보장을 제공한다.

제안 방법

  • 저랭크 MDP를 임베딩 함수 φ와 μ로 형식화하고 T(x'|x,a)=<φ(x,a), μ(x')>를 만족시키며 φ와 μ의 노름이 한정되어 있다고 가정한다.
  • 학습의 계산 가능성을 확보하기 위해 두 함수 클래스 Φ와 Υ를 도입하고 φ*_h ∈ Φ 및 μ*_h ∈ Υ라는 실현가능성 가정을 제시한다.
  • 보상 무관 탐색 목표와 정책 간의 일단계 동역학 재생에 대해 학습된 모델 M̂=(φ̂, μ̂)의 균일 정확도 기준을 정의한다.
  • 또한 임베딩 학습을 위해 최대가능우도 오라클(Mle)을 적용하고 탐색 정책을 설계하기 위해 모델 기반 플래너를 사용하는 반복적 알고리즘 Flambe를 제안한다.
  • 학습된 특징 공간의 커버리지를 극대화하기 위해 타원형 포텐셜에서 영감을 받은 계획 하위루틴을 개발하고 혼합 탐색 정책을 구축한다.
  • 두 가지 알고리즘 변형을 제시한다: 일반적인 저랭크 MDP 버전과 단순체 인자화 버전으로 샘플 복잡도가 다르게 나타난다.

실험 결과

연구 질문

  • RQ1임베딩이 알려지지 않은 상황에서 표현 학습을 통해 저랭크 MDP를 효과적으로 학습할 수 있는가?
  • RQ2전이 역학을 정확히 식별하기 위해 학습된 특징 공간의 포괄적 커버리지를 달성하도록 탐색을 어떻게 안내할 수 있는가?
  • RQ3실현가능성 하에서 환경 모델과 표현 학습 모두에 대한 통계적 보장은 무엇인가?
  • RQ4학습 가능성 및 계획 측면에서 저랭크 MDP의 표현력과 한계는 블록 MDP 및 잠재 변수 모델과 어떻게 비교되는가?
  • RQ5다른 인자화 가정(임베딩 차원 d 대 잠재 차원 dLV) 하에서 표현 학습의 계산 복잡도와 샘플 복잡도 함의는 무엇인가?

주요 결과

AlgorithmSettingSample ComplexityComputation
Pcid (Du et al., 2019b)block MDPd^4 H^2 K^4 (1/η^4 γ^2 + 1/ε^2)Oracle efficient
Homer (Misra et al., 2019)block MDPd^8 H^4 K^4 (1/η^3 + 1/ε^2)Oracle efficient
Olive (Jiang et al., 2017)low Bellman rankd^2 H^3 K / ε^2Inefficient
Sun et al. (2019)low Witness rankd^2 H^3 K / ε^2Inefficient
Flambe (this paper)low rank MDPd^7 K^9 H^22 / ε^10Oracle efficient
  • Flambe는 실현가능성 하에서 저랭크 MDP 모델의 통계적 및 계산적으로 효율적인 학습을 달성한다.
  • 저랭크 MDP는 블록 MDP보다 표현력이 크며, Flambe는 잠재변수 관점을 활용해 표현 학습을 가능하게 한다.
  • 가정 1(실현가능성)과 모델 기반 플래너 하에서, Flambe는 다항 시간 복잡도와 약 H^22 K^9 d^7 / ε^10(로그를 포함하면) 정도의 궤적 수로 균일 정확도 학습 모델을 얻는다.
  • 단순체 인자화에서 작동하는 Flambe의 변형은 horizon H, action space K, ε에 대한 의존성을 개선하며 복잡도는 H^11 K^5 dLV^5 / ε^3 (로그를 포함하면) 로 증가한다.
  • 도달성 기반의 개선은 도달성 가정이 있을 때 잠재 변수 차원 dLV가 한정되며 Flambe가 샘플링 없이 또는 감소된 샘플링 요건으로 작동할 수 있음을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.