[논문 리뷰] Mildly Conservative Q-Learning for Offline Reinforcement Learning
MCQ는 미세하게 보수적인 벨만 업데이트를 도입하여 의사 목표를 가진 OOD 액션을 적극적으로 학습하고, 이는 수렴 맥락을 형성하며 행동 정책 대비 정책 개선을 초래하고, 강한 오프라인 및 오프라인-대-온라인 성능을 제공합니다.
Offline reinforcement learning (RL) defines the task of learning from a static logged dataset without continually interacting with the environment. The distribution shift between the learned policy and the behavior policy makes it necessary for the value function to stay conservative such that out-of-distribution (OOD) actions will not be severely overestimated. However, existing approaches, penalizing the unseen actions or regularizing with the behavior policy, are too pessimistic, which suppresses the generalization of the value function and hinders the performance improvement. This paper explores mild but enough conservatism for offline learning while not harming generalization. We propose Mildly Conservative Q-learning (MCQ), where OOD actions are actively trained by assigning them proper pseudo Q values. We theoretically show that MCQ induces a policy that behaves at least as well as the behavior policy and no erroneous overestimation will occur for OOD actions. Experimental results on the D4RL benchmarks demonstrate that MCQ achieves remarkable performance compared with prior work. Furthermore, MCQ shows superior generalization ability when transferring from offline to online, and significantly outperforms baselines. Our code is publicly available at https://github.com/dmksjfl/MCQ.
연구 동기 및 목표
- 학습 정책과 행동 정책 간 분포 차이를 다루어 오프라인 RL을 고무한다.
- 일반화 보존에 충분히 가볍게 보수성의 수준을 개발한다.
- 연속 제어를 위한 Mildly Conservative Bellman(MCB) 연산자와 그 실용적 버전을 제안한다.
- MCQ 알고리즘을 형성하기 위해 MCB를 SAC와 통합하고 D4RL 벤치마크에서 검증한다.
제안 방법
- MCB 연산자를 두 번의 백업으로 구성으로 정의하고, 지원 내부 액션에는 표준 벨만 백업을 적용하고 OOD 액션에는 의사 타깃을 적용한다.
- CVAE를 통해 학습된 행동 정책 mu를 사용하여 OOD 액션을 샘플링하고 그들의 Q-값을 추정하는 실용적 MCB 연산자를 제공한다.
- 표형 MDP 설정에서 MCB가 감마 수축이며, 유도된 정책이 행동 정책만큼 최적이거나 그보다 낫고 CQL이나 명시적 제약보다 비관적임이 보인다.
- CVAE로 행동 정책을 추정하고 실용적 MCB를 SAC에 통합하여 균형 매개변수 lambda로 OOD 액션 학습 손실을 도입한다.
- 전반적인 MCQ 알고리즘을 인-디스트리뷰션 TD 오차와 OOD-액션 보조 손실을 결합한 비평가 손실과 표준 SAC 행위자 업데이트로 정의한다.
- 같은 MCB 원리를 사용하여 TD3와 같은 다른 오프폴리시 방법에 대한 확장 가능성을 논의한다.
실험 결과
연구 질문
- RQ1MCB 연산자를 통한 약한 보수성이 오프라인 RL에서 행동 정책 대비 정책 개선을 달성할 수 있는가?
- RQ2실용적 MCB 연산자가 실용적 경험 행동 정책 하에서 OOD 액션에 대한 잘못된 과대추정을 방지하는가?
- RQ3MCQ는 D4RL MuJoCo 작업에서 비전문가 데이터셋에서 특히 어떤 비교대상과 비교해 SOTA 오프라인 RL 베이스라인보다 우수한가?
- RQ4오프라인 데이터셋에서 온라인 정밀 튜닝으로의 전이 시 MCQ는 강한 오프라인-온라인 일반화를 보이는가?
주요 결과
| 작업 이름 | BC | SAC | CQL | UWAC | TD3+BC | IQL | MCQ (ours) |
|---|---|---|---|---|---|---|---|
| halfcheetah-r | 2.2 b1 0.0 | 29.7 b1 1.4 | 17.5 b1 1.5 | 2.3 b1 0.0 | 11.0 b1 1.1 | 13.1 b1 1.3 | 28.5 b1 0.6 |
| hopper-r | 3.7 b1 0.6 | 9.9 b1 1.5 | 7.9 b1 0.4 | 2.7 b1 0.3 | 8.5 b1 0.6 | 7.9 b1 0.2 | 31.8 b1 0.5 |
| walker2d-r | 1.3 b1 0.1 | 0.9 b1 0.8 | 5.1 b1 1.3 | 2.0 b1 0.4 | 1.6 b1 1.7 | 5.4 b1 1.2 | 17.0 b1 3.0 |
| halfcheetah-m | 43.2 b1 0.6 | 55.2 b1 27.8 | 47.0 b1 0.5 | 42.2 b1 0.4 | 48.3 b1 0.3 | 47.4 b1 0.2 | 64.3 b1 0.2 |
| hopper-m | 54.1 b1 3.8 | 0.8 b1 0.0 | 53.0 b1 28.5 | 50.9 b1 4.4 | 59.3 b1 4.2 | 66.2 b1 5.7 | 78.4 b1 4.3 |
| walker2d-m | 70.9 b1 11.0 | -0.3 b1 0.2 | 73.3 b1 17.7 | 75.4 b1 3.0 | 83.7 b1 2.1 | 78.3 b1 8.7 | 91.0 b1 0.4 |
| halfcheetah-m-r | 37.6 b1 2.1 | 0.8 b1 1.0 | 45.5 b1 0.7 | 35.9 b1 3.7 | 44.6 b1 0.5 | 44.2 b1 1.2 | 56.8 b1 0.6 |
| hopper-m-r | 16.6 b1 4.8 | 7.4 b1 0.5 | 88.7 b1 12.9 | 25.3 b1 1.7 | 60.9 b1 18.8 | 94.7 b1 8.6 | 101.6 b1 0.8 |
| walker2d-m-r | 20.3 b1 9.8 | -0.4 b1 0.3 | 81.8 b1 2.7 | 23.6 b1 6.9 | 81.8 b1 5.5 | 73.8 b1 7.1 | 91.3 b1 5.7 |
| halfcheetah-m-e | 44.0 b1 1.6 | 28.4 b1 19.4 | 75.6 b1 25.7 | 42.7 b1 0.3 | 90.7 b1 4.3 | 86.7 b1 5.3 | 87.5 b1 1.3 |
| hopper-m-e | 53.9 b1 4.7 | 0.7 b1 0.0 | 105.6 b1 12.9 | 44.9 b1 8.1 | 98.0 b1 9.4 | 91.5 b1 14.3 | 111.2 b1 0.1 |
| walker2d-m-e | 90.1 b1 13.2 | 1.9 b1 3.9 | 107.9 b1 1.6 | 96.5 b1 9.1 | 110.1 b1 0.5 | 109.6 b1 1.0 | 114.2 b1 0.7 |
| halfcheetah-e | 91.8 b1 1.5 | -0.8 b1 1.8 | 96.3 b1 1.3 | 92.9 b1 0.6 | 96.7 b1 1.1 | 95.0 b1 0.5 | 96.2 b1 0.4 |
| hopper-e | 107.7 b1 0.7 | 0.7 b1 0.0 | 96.5 b1 28.0 | 110.5 b1 0.5 | 107.8 b1 7 | 109.4 b1 0.5 | 111.4 b1 0.4 |
| walker2d-e | 106.7 b1 0.2 | 0.7 b1 0.3 | 108.5 b1 0.5 | 108.4 b1 0.4 | 110.2 b1 0.3 | 109.9 b1 1.2 | 107.2 b1 1.1 |
- MCQ는 D4RL MuJoCo 작업에서 전반적으로 강한 성능을 달성하며, 비전문가 데이터셋에서 여러 베이스라인보다 우수하고 전문 데이터셋에서도 경쟁력을 유지한다.
- 이론적 결과는 MCB 연산자가 행동 정책의 지원에서 감마 수축이며, 유도된 정책이 행동 정책보다 적어도 같게 동작하고 CQL 또는 명시적 제약보다 더 온건한 비관성을 갖는다고 보여준다.
- CVAE로 추정된 행동 정책을 사용하는 실용적 MCB는 완화된 분포 차이 가정 하에서 잘못된 과대추정을 초래하지 않는다.
- MCQ는 오프라인-온라인 파인튜닝에서 베이스라인에 비해 우수한 성능을 보여주며 온라인 상호작용 중에도 성능을 유지하거나 향상시킨다.
- 이 방법은 OOD 액션 평가에 N=10 샘플을 사용하고 람다를 일반적으로 [0.7, 1) 구간에서 설정하여 안정적인 Q-값 추정과 높은 일반화를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.