[논문 리뷰] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction
논문은 분포 밖 행동으로 인한 부트스트래핑 오류를 오프-정책 Q-러닝의 주요 불안정성으로 식별하고, BEAR를 도입해 분포 제약 오프라인 RL 방법이 오류 축적을 줄이고 다양한 오프-정책 데이터에서 견고한 성능을 보임.
Off-policy reinforcement learning aims to leverage experience collected from prior policies for sample-efficient learning. However, in practice, commonly used off-policy approximate dynamic programming methods based on Q-learning and actor-critic methods are highly sensitive to the data distribution, and can make only limited progress without collecting additional on-policy data. As a step towards more robust off-policy algorithms, we study the setting where the off-policy experience is fixed and there is no further interaction with the environment. We identify bootstrapping error as a key source of instability in current methods. Bootstrapping error is due to bootstrapping from actions that lie outside of the training data distribution, and it accumulates via the Bellman backup operator. We theoretically analyze bootstrapping error, and demonstrate how carefully constraining action selection in the backup can mitigate it. Based on our analysis, we propose a practical algorithm, bootstrapping error accumulation reduction (BEAR). We demonstrate that BEAR is able to learn robustly from different off-policy distributions, including random and suboptimal demonstrations, on a range of continuous control tasks.
연구 동기 및 목표
- 추가적인 환경 상호작용 없이 대형 정적 오프-policy 데이터셋으로부터의 학습을 동기 부여한다.
- Q-learning에서 분포 밖 행동으로 인한 부트스트래핑 오류를 분석한다.
- 동작 지원 제약을 통해 오류 전파를 제어하는 실용적인 오프정책 알고리즘을 개발한다.
- 분포 제약 백업에 대한 이론적 통찰과 성능 보장을 제공한다.
제안 방법
- 데이터 분포 내의 서포트 집합 Pi 안의 정책들에 대해 최댓값을 취하는 분포 제약 백업을 형식화한다.
- 오프-정책 성능을 구속하기 위해 서브최적성 상수 alpha(Pi)와 집중성 C(Pi)를 도입한다.
- BEAR를 제안한다: Q-에 ensemble을 사용하고 Pi_epsilon(지지 제약 집합) 내에서 앙상블 전체의 최소 Q로 행동을 선택한다.
- 거동 정책의 지지에 맞추기 위해 미분 가능 MMD 기반 제약으로 Pi_epsilon를 근사한다.
- 이중 기울기 방법과 샘플 기반 MMD 추정을 통해 제약된 정책 개선을 해결한다.
- 성능을 유지하면서 정책 탐색을 데이터 지지 내로 제한함으로써 BEAR를 분포 제약 백업에 연결한다.
실험 결과
연구 질문
- RQ1상호작용 없이 고정된 오프정책 데이터셋으로 학습할 때 오프폴리시 Q-러닝이 안정화될 수 있는가?
- RQ2데이터 지지에 백업을 제약하는 것이 오류 전파 및 전반적 성능에 어떤 영향을 미치는가?
- RQ3무작위, 비최적 및 최적 정책에서 나온 데이터셋 전반에 걸쳐 분포 제약 백업이 일반화되는가?
- RQ4BEAR 기반의 오프라인 RL 방법이 다양한 연속 제어 태스크에서 BCQ 및 TD3와 같은 기존 방법보다 더 나은 성능을 보이는가?
주요 결과
- BEAR-QL은 MuJoCo 태스크에서 중간 품질 데이터에 대해 BCQ 및 순진한 오프폴 RL을 지속적으로 능가한다.
- BEAR-QL은 무작위 및 거의 최적에 가까운 데이터셋에서도 견고한 성능을 달성하며 종종 데이터셋 보상과 일치하거나 이를 상회한다.
- MMD 기반 제약을 통한 데이터 지지에 백업을 제약하는 것이 KL-발산 또는 제약 없는 방법보다 학습이 더 안정적이다.
- 다양한 데이터 조건에서도 BEAR는 어려운 환경(예: Humanoid-v2)에서 경쟁력 있는 성능을 유지한다.
- 두 개 이상의 Q 앙상블과 보수적 정책 개선은 데이터셋 구성에 대한 견고성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.