QUICK REVIEW

[논문 리뷰] Is Pessimism Provably Efficient for Offline RL?

Ying Jin, Zhuoran Yang|arXiv (Cornell University)|2020. 12. 30.

Reinforcement Learning in Robotics참고 문헌 68인용 수 25

한 줄 요약

이 논문은 오프라인 강화학습을 위한 편향된 가치 반복 알고리즘인 PEVI를 제안한다. 이 알고리즘은 저커버리지 트레이젝터리에서 발생하는 잘못된 상관관계를 보완하기 위해 페널티 함수를 사용한다. 선형 MDP에서 최소화된 최적화 성능을 달성하는 데이터에 의존하는 부분 최적화 경계를 수립하며, 이는 로그 인자 수준에서 최소화된 최적성과 동일하다. 이는 강력한 데이터 커버리지 가정 없이도 편향이 증명 가능한 효율성을 보임을 증명한다.

ABSTRACT

We study offline reinforcement learning (RL), which aims to learn an optimal policy based on a dataset collected a priori. Due to the lack of further interactions with the environment, offline RL suffers from the insufficient coverage of the dataset, which eludes most existing theoretical analysis. In this paper, we propose a pessimistic variant of the value iteration algorithm (PEVI), which incorporates an uncertainty quantifier as the penalty function. Such a penalty function simply flips the sign of the bonus function for promoting exploration in online RL, which makes it easily implementable and compatible with general function approximators. Without assuming the sufficient coverage of the dataset, we establish a data-dependent upper bound on the suboptimality of PEVI for general Markov decision processes (MDPs). When specialized to linear MDPs, it matches the information-theoretic lower bound up to multiplicative factors of the dimension and horizon. In other words, pessimism is not only provably efficient but also minimax optimal. In particular, given the dataset, the learned policy serves as the "best effort" among all policies, as no other policies can do better. Our theoretical analysis identifies the critical role of pessimism in eliminating a notion of spurious correlation, which emerges from the "irrelevant" trajectories that are less covered by the dataset and not informative for the optimal policy.

연구 동기 및 목표

상호작용을 통해 개선할 수 없는 불충분한 데이터 커버리지 문제를 해결한다.
저커버리지, 고보상 트레이젝터리에서 발생하는 잘못된 상관관계 문제를 식별하고, 균일한 커버리지나 유한한 집중성 가정 없이 해결한다.
데이터 커버리지가 최적 정책의 트레이젝터리를 포함하지 않더라도 효율적인 이론적 기반을 가진 알고리즘을 개발한다.
오프라인 RL에서 편향의 최소화된 최적성을 수립하여, 주어진 데이터에 기반해 가장 좋은 정책이 학습된다는 것을 증명한다.

제안 방법

오프라인 RL에서의 낙관보상의 부호를 뒤집어 얻은 페널티 함수를 포함한 편향된 가치 반복의 변형인 PEVI를 제안한다.
페널티 함수를 불확실성 측정기로 정의하여, 높은 불확실성과 낮은 데이터 커버리지가 있는 행동에 대해 페널티를 가한다.
부분 최적화를 세 가지 구성요소로 분해한다: 내재적 불확실성, 잘못된 상관관계, 최적화 오차로, 편향이 잘못된 상관관계를 제거하는 역할을 분리한다.
선형 MDP의 경우 커널 기반 불확실성 측정을 사용하여 페널티 함수를 정의하며, 자기정규화 과정과 커널 리지 회귀를 활용한다.
RKHS에서 자기정규화 과정에 대한 농도 부등식을 사용하여 추정 오차를 제한하고, 데이터에 의존하는 일반화 경계를 유도한다.
최소화된 하한 경계를 수립하고, PEVI의 부분 최적화가 차원과 수렴 시간에 대해 로그 인자 수준에서 이 경계와 일치함을 보여 최적성을 증명한다.

실험 결과

연구 질문

RQ1강력한 데이터 커버리지 가정 없이도 오프라인 RL에서 편향이 증명 가능한 효율성을 가지는가?
RQ2저커버리지, 고보상 트레이젝터리에서 발생하는 잘못된 상관관계를 제거하는 데 있어 편향의 역할은 무엇인가?
RQ3최소한의 가정 하에 유지되는 데이터에 의존하는 부분 최적화 경계가 존재하는가?
RQ4편향된 가치 반복이 유한한 집중성 또는 유한한 밀도 비율을 요구하지 않고 선형 MDP에서 최소화된 최적성을 달성할 수 있는가?
RQ5PEVI 하에 학습된 정책은 잘못된 데이터 패tern에 영향을 받지 않고, 주어진 데이터셋에서 가장 좋은 정책을 대표하는가?

주요 결과

PEVI는 유한한 집중성 계수나 균일하게 낮은 방문 밀도를 요구하지 않고 일반 MDP에 대해 데이터에 의존하는 부분 최적화 경계를 달성한다.
선형 MDP의 경우 PEVI의 부분 최적화는 차원과 수렴 시간에 대해 정보 이론적 하한 경계와 로그 인자 수준에서 일치하며, 최소화된 최적성을 증명한다.
PEVI의 페널티 함수는 불확실성 측정기로 작용하여 잘못된 상관관계가 부분 최적화에 기여하는 것을 효과적으로 제거한다.
정보 이론적 한계로 인해 오프라인 RL의 내재적 불확실성은 제거될 수 없으며, 이는 근본적인 장벽임을 확인한다.
PEVI는 오라클 성질을 보인다: 부분 최적화는 최적 정책의 트레이젝터리가 데이터셋에 얼마나 잘 커버되는지에 따라 달라지며, 관련이 없는 고보상, 저커버리지 트레이젝터리에 영향을 받지 않는다.
이론적 분석은 최소한의 가정—단지 데이터 수집 과정의 일관성—하에 성립하므로, 제한된 데이터 커버리지가 있는 실제 환경에 적용 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.