Skip to main content
QUICK REVIEW

[논문 리뷰] Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms

Chi Jin, Qinghua Liu|arXiv (Cornell University)|2021. 02. 01.
Machine Learning and Algorithms참고 문헌 48인용 수 29
한 줄 요약

벨만 Eluder (BE) 차원을 함수 근사와 함께하는 RL의 통합된 복잡도 척도로 도입하고, 낮은 BE 차원이 많은 해석가능한 RL 클래스들을 포함한다는 것을 보여주며, 상태-행동 크기에 의존하지 않는 다항적 표본 복잡도를 갖는 Golf 최적화 기반 알고리즘(및 Olive)을 제시한다.

ABSTRACT

Finding the minimal structural assumptions that empower sample-efficient learning is one of the most important research directions in Reinforcement Learning (RL). This paper advances our understanding of this fundamental question by introducing a new complexity measure -- Bellman Eluder (BE) dimension. We show that the family of RL problems of low BE dimension is remarkably rich, which subsumes a vast majority of existing tractable RL problems including but not limited to tabular MDPs, linear MDPs, reactive POMDPs, low Bellman rank problems as well as low Eluder dimension problems. This paper further designs a new optimization-based algorithm -- GOLF, and reanalyzes a hypothesis elimination-based algorithm -- OLIVE (proposed in Jiang et al., 2017). We prove that both algorithms learn the near-optimal policies of low BE dimension problems in a number of samples that is polynomial in all relevant parameters, but independent of the size of state-action space. Our regret and sample complexity results match or improve the best existing results for several well-known subclasses of low BE dimension problems.

연구 동기 및 목표

  • 함수 근사와 함께하는 표본 효율적인 RL을 가능하게 하는 최소한의 구조적 가정을 식별한다.
  • 낮은 BE 차원이 많은 알려진 해석가능한 RL 클래스들(예: Bellman rank, Eluder dimension)을 포괄하고 새로운 클래스를 도입한다는 것을 보인다.
  • 상태-행동 공간 크기에 의존하지 않는 입증 가능한 표본 효율성을 갖는 알고리즘을 설계한다.

제안 방법

  • Bellman Eluder (BE) 차원을 단계별 Bellman 잔여의 분포적 Eluder 차원으로 정의한다.
  • Golf 알고리즘을 제안한다. 이는 최적화 기반 방법으로, 낙관적 가치 함수를 선택하고 수집된 데이터에 대한 지역 회귀 제약을 통해 신뢰 집합을 업데이트한다.
  • 일반화된 완전성 가정과 실현가능성을 사용해 후회와 표본 복잡도 경계를 보장한다.
  • BE 프레임워크 내에서 기존의 가설 소거 알고리즘 Olive를 재분석하고 성능을 비교한다.
  • BE 차원이 낮은 Bellman rank와 낮은 Eluder 차원을 포섭하고 커널 반응형 POMDPs와 같은 새로운 클래스를 포함한다는 연결을 확립한다.

실험 결과

연구 질문

  • RQ1함수 근사와 함께하는 표본 효율적인 RL을 가능하게 하는 최소한의 구조적 복잡성은 무엇인가?
  • RQ2BE 차원이 낮은 Bellman rank와 낮은 Eluder 차원과 같은 기존의 해석가능한 RL 클래스를 통합하고 확장하는가?
  • RQ3BE 기반 가정하에서 실용 알고리즘이 상태-행동 공간에 의존하지 않는 다항 시간 표본 복잡도를 달성할 수 있는가?
  • RQ4BE 기반 가정하에 Golf와 Olive가 기존 결과에 비해 어떻게 성능을 보이는가?

주요 결과

  • 낮은 BE 차원은 많은 알려진 해석가능한 모델과 새로운 모델을 포함하는 풍부한 RL 문제 클래스를 정의한다.
  • Golf는 BE 차원과 horizon에 다항적으로 스케일하는 후회 및 표본 복잡도 경계를 달성하며, 상태-행동 공간 크기에 의존하지 않는다.
  • 실현가능성과 일반화된 완전성 하에서 BE 차원과 커버링 수에 연관된 표본 복잡도로 거의 최적의 정책을 달성한다.
  • Olive도 낮은 BE 차원 문제를 학습할 수 있지만 유사한 가정 하에서 Golf에 비해 표본 복잡도가 더 나쁘다.
  • BE 차원은 낮은 Bellman rank와 낮은 Eluder 차원을 포섭하며, 이 두 클래스의 합에 포괄되지 않는 낮은 BE 차원의 문제도 존재한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.