Skip to main content
QUICK REVIEW

[논문 리뷰] What are the Statistical Limits of Offline RL with Linear Function Approximation?

Ruosong Wang, Dean P. Foster|arXiv (Cornell University)|2020. 10. 22.
Reinforcement Learning in Robotics참고 문헌 63인용 수 37
한 줄 요약

이 논문은 realizability 하에서 linear Q-functions와 제약된 feature coverage를 가질 때, 오프라인 RL이 어떤 정책을 평가하기 위해 horizon에 대해 지수적인 샘플이 필요하다는 것을 증명한다; 또한 더 강한 조건 없이 샘플 효율적인 오프라인 정책 평가가 불가능한 이유를 분석한다.

ABSTRACT

Offline reinforcement learning seeks to utilize offline (observational) data to guide the learning of (causal) sequential decision making strategies. The hope is that offline reinforcement learning coupled with function approximation methods (to deal with the curse of dimensionality) can provide a means to help alleviate the excessive sample complexity burden in modern sequential decision making problems. However, the extent to which this broader approach can be effective is not well understood, where the literature largely consists of sufficient conditions. This work focuses on the basic question of what are necessary representational and distributional conditions that permit provable sample-efficient offline reinforcement learning. Perhaps surprisingly, our main result shows that even if: i) we have realizability in that the true value function of \emph{every} policy is linear in a given set of features and 2) our off-policy data has good coverage over all features (under a strong spectral condition), then any algorithm still (information-theoretically) requires a number of offline samples that is exponential in the problem horizon in order to non-trivially estimate the value of \emph{any} given policy. Our results highlight that sample-efficient offline policy evaluation is simply not possible unless significantly stronger conditions hold; such conditions include either having low distribution shift (where the offline data distribution is close to the distribution of the policy to be evaluated) or significantly stronger representational conditions (beyond realizability).

연구 동기 및 목표

  • realizability와 양호한 특징 커버리지가 선형 함수 근사로의 샘플 효율적인 오프라인 RL에 충분한지 평가한다.
  • 선형 설정에서 오프라인 정책 평가의 근본적인 한계를 제시한다.
  • 오류 증폭을 설명하고 효율성이 가능한 조건을 식별한다.
  • 오프라인 데이터와 realizability 하에서 LSPE의 동작에 대한 통찰을 제공한다.

제안 방법

  • 가정 1과 2 하에서 horizon H에 대해 지수적 샘플 복잡도를 보이는 hardness 정리를 진술하고 형식화한다.
  • 정보 이론적 한계를 보이기 위해 linear Q-functions과 경계된 특징 노름을 갖는 어려운 MDP 인스턴스를 구성한다.
  • 오프라인 데이터 하에서 기하학적 오류 증폭을 보여주기 위해 LSPE를 분석한다.
  • Assumption 3(저분포 이동)을 도입하고 LSPE로 샘플 효율성을 달성하기에 충분한지 논의한다.
  • 샘플 복잡도 측면에서 오프라인 LSVE/LSVI와 온라인/오프라인 대응(LSPI) 간의 관계를 논의한다.

실험 결과

연구 질문

  • RQ1realizability와 양호한 특징 커버리지가 선형 함수 근사로의 오프라인 정책 평가에 다항적 샘플 복잡도를 보장할 수 있는가?
  • RQ2어떤 분포적 혹은 표현적 강화를 통해 오프라인 RL이 샘플 효율적이 될 수 있는가?
  • RQ3realizability 가정하에서 LSPE로의 오프라인 정책 평가에서 오류가 어떻게 전파(증폭)되는가?
  • RQ4선형 함수 근사로의 오프라인 RL 한계를 보여 주는 구체적인 어려운 인스턴스는 무엇인가?

주요 결과

  • 주어진 가정하에서 어떤 정책의 가치를 비자명하게 추정하려면 horizon에 대해 모든 알고리즘이 지수적 샘플을 필요로 한다.
  • 구성 하에서 무편향 추정량임에도 LSPE는 horizon H에서 지수적 분산을 가진다.
  • 오프라인, 선형, realizability 설정에서 오프라인 LSVI와 LSPI 사이에 샘플 복잡도에 지수적 분리(간극)가 있다.
  • 두 개의 어려운 인스턴스(희박한 보상과 결정론적 동역학)는 보상 추정 오차와 전이 추정 오차의 동시 증폭 가능성을 보여준다.
  • 샘플 효율적인 오프라인 정책 평가가 가능한 것은 realizability를 넘어 저분포 이동 또는 더 강한 표현 가정과 같은 더 강한 조건하에서만 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.