QUICK REVIEW

[논문 리뷰] Provably Good Batch Reinforcement Learning Without Great Exploration

Yao Liu, Adith Swaminathan|arXiv (Cornell University)|2020. 07. 16.

Reinforcement Learning in Robotics참고 문헌 38인용 수 36

한 줄 요약

이 논문은 강한 집중성 가정에 의존하지 않으면서 데이터 지원 영역 내에서 거의 최적에 가까운 정책을 보장하는 보수적이고 주변 동작 지원 배치 RL 알고리즘(MBS-PI 및 MBS-QI)을 제시합니다. 배치 설정에서 기준선 대비 안정성 및 성능 향상을 보여주는 이론 및 실증 평가를 제공합니다.

ABSTRACT

Batch reinforcement learning (RL) is important to apply RL algorithms to many high stakes tasks. Doing batch RL in a way that yields a reliable new policy in large domains is challenging: a new decision policy may visit states and actions outside the support of the batch data, and function approximation and optimization with limited samples can further increase the potential of learning policies with overly optimistic estimates of their future performance. Recent algorithms have shown promise but can still be overly optimistic in their expected outcomes. Theoretical work that provides strong guarantees on the performance of the output policy relies on a strong concentrability assumption, that makes it unsuitable for cases where the ratio between state-action distributions of behavior policy and some candidate policies is large. This is because in the traditional analysis, the error bound scales up with this ratio. We show that a small modification to Bellman optimality and evaluation back-up to take a more conservative update can have much stronger guarantees. In certain settings, they can find the approximately best policy within the state-action space explored by the batch data, without requiring a priori assumptions of concentrability. We highlight the necessity of our conservative update and the limitations of previous algorithms and analyses by illustrative MDP examples, and demonstrate an empirical comparison of our algorithm and other state-of-the-art batch RL baselines in standard benchmarks.

연구 동기 및 목표

상태-작업 공간이 부분적으로만 커버되는 배치 RL의 필요성을 제시하고, 기존 방법이 과도하게 낙관적 추정에 빠질 위험이 있음을 지적한다.
업데이트를 잘 지원되는 상태-작업 쌍으로만 제한하는 보수적 Bellman 백업을 제안한다.
이론적 보장을 갖춘 Marginalized Behavior Supported Policy Iteration (MBS-PI) 및 Q-Iteration (MBS-QI)을 개발한다.
이산 및 연속 도메인에서 기준선 대비 강건성과 개선된 성능을 보여주는 실험 평가를 제공한다.

제안 방법

Bellman 백업을 잘 지원된 상태-작용 쌍으로 제한하기 위한 밀도 기반 필터 z(s,a; mu_hat,b) 를 도입한다.
z-제한된 Bellman 평가 연산자 ¯T^{\u001cpi} 와 Q-학습용 ¯T 연산자를 정의하여 extrapolation 을 피하기 위해 z 를 사용한다.
데이터-지원된 행동에 대해서만 최적화하도록 제약된 API 및 AVI 변형으로 MBS-PI 및 MBS-QI 를 형식화한다.
데이터-제한된 연산 프레임워크 안에서 Q-함수를 학습하기 위해 최소자승 경험 손실 ¯l_D(f;f',\u001cp) 를 사용한다.
이론적 보장: 제약된 세트 ¯Pi_all 내에서 가장 잘 커버된 정책과의 출력 간 차이가 하이퍼파라미터 b에 비례하는 바와 함께 C = U/b 로 스케일링된 경향을 보인다.
임계값 b 를 선택하고 행동 밀도 mu 를 추정하는 실제적 측면에 대해 논의한다.

실험 결과

연구 질문

RQ1배치 RL 알고리즘이 강한 집중성 가정에 의존하지 않으면서도 우수한 성능을 보장할 수 있는가?
RQ2Bellman 백업을 데이터가 지원하는 상태-작용 쌍으로 제한하는 것이 이론적 보장과 이산 및 연속 도메인 모두에서 개선된 실험 성능을 제공하는가?
RQ3MBS-PI 및 MBS-QI 가 기존 기준선들(BCQL, SPIBB, BEAR, BC 등)과 비교해 데이터 커버리지 변화에 따라 어떤 차이를 보이는가?
RQ4임계값 매개변수 b 가 보수성과 낙관성의 균형에서 어떤 역할을 하며 실제 적용 시 어떻게 설정해야 하는가?
RQ5제약된 접근 방식이 데이터 지원 정책 군 내에서 거의 최적의 성능을 달성하는 조건은 무엇인가?

주요 결과

MBS-PI 및 MBS-QI 는 배치 데이터가 탐색하는 상태-작업 공간 내에서 대략 최적에 가까운 정책을 식별할 수 있으며 집중성 가정이 필요하지 않다.
z-제한된 Bellman 연산자는 잘 지원되지 않는 영역에 대한 업데이트를 줄여, 이전의 배치 RL 방법에서 일반적으로 나타나는 과도한 낙관적 부트스트래핑을 완화한다.
이론적 보장은 가치 차이가 데이터 밀도 상한 및 임계값 매개변수 b 와 함께 확산되고, 표준적으로 n 및 (1-γ) 의 의존성을 따른다.
이산 CartPole 및 연속 MuJoCo 과제에서의 실험 결과는 다양한 데이터 커버리지 상황에서 기준선 대비 안정성과 성능이 향상됨을 보여준다.
프레임워크는 이산 설정에서 안전 정책 개선(safe-policy-improvement) 스타일의 보장을 제공하고, 행동 밀도 mu_hat 의 추정 오차에 대한 강건성을 보여준다.
하이퍼파라미터 b 는 보수성과 데이터 활용 사이의 균형에 중심적이며, 실용적 선택 및 진단 점검에 관한 지침이 제시된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.