[논문 리뷰] Automatic Data Augmentation for Generalization in Deep Reinforcement Learning
논문은 DrAC를 도입하고 세 가지 자동 증강 전략(UCB-DrAC, RL2-DrAC, Meta-DrAC)을 통해 RL 과제에 효과적인 데이터 증강을 자동으로 선택하며 Procgen에서 최첨단 일반화, Distractor가 있는 DeepMind Control에서도 강력한 성과를 보인다.
Deep reinforcement learning (RL) agents often fail to generalize to unseen scenarios, even when they are trained on many instances of semantically similar environments. Data augmentation has recently been shown to improve the sample efficiency and generalization of RL agents. However, different tasks tend to benefit from different kinds of data augmentation. In this paper, we compare three approaches for automatically finding an appropriate augmentation. These are combined with two novel regularization terms for the policy and value function, required to make the use of data augmentation theoretically sound for certain actor-critic algorithms. We evaluate our methods on the Procgen benchmark which consists of 16 procedurally-generated environments and show that it improves test performance by ~40% relative to standard RL algorithms. Our agent outperforms other baselines specifically designed to improve generalization in RL. In addition, we show that our agent learns policies and representations that are more robust to changes in the environment that do not affect the agent, such as the background. Our implementation is available at https://github.com/rraileanu/auto-drac.
연구 동기 및 목표
- 훈련 환경에 과적합으로 인한 심층 강화학습의 일반화 격차를 해소한다.
- 액터-크리틱 방법을 위한 이론적으로 타당한 데이터 증강 프레임워크를 제안한다.
- 상태 변환에 대한 정책 및 가치-불변성을 보장하는 정규화 항을 개발한다.
- UCB, RL2 메타학습 또는 CNN 가중치 학습을 통해 자동으로 효과적인 증강을 선택한다.
- Procgen에서의 최첨단 성능과 무관한 환경 변화에 대한 견고성을 시연한다.
제안 방법
- 두 가지 정규화 항을 갖는 데이터 정규화된 액터-크리틱(DrAC)을 도입한다: 정책 정규화와 가치-함수 정규화.
- 최적성-불변 상태 변환 f(s, ν)를 사용하여 불변성을 강제한다: V(s)=V(f(s,ν)) 및 π(a|s)=π(a|f(s,ν)).
- 표준 액터-크리틱 목표(PPO)를 유지하고 정규화 손실 G_π와 G_V를 α_r로 가중하여 차감한다.
- 세 가지 자동 증강 전략을 제공한다: UCB-DrAC(밴딧 기반 선택), RL2-DrAC(메타학습 선택), Meta-DrAC(CNN 증강 가중치).
- 에이전트를 동시 업데이트하는 동안 증강 선택을 비정상적(non-stationary) 밴딧 또는 메타학습 문제로 근사한다.
- 사이클 일관성 및 JSD 분석을 통해 불변성과 강건함을 보여준다.
실험 결과
연구 질문
- RQ1목표 추정치를 깨뜨리지 않으면서 액터-크리틱 RL 알고리즘과 데이터 증강을 안전하게 함께 사용할 수 있는가?
- RQ2 RL에서 일반화를 향상시키는 작업 특화 증강을 자동으로 식별할 수 있는가?
- RQ3변환에 대한 정책 및 가치 함수 정규화가 확대된 관찰에서 안정성과 성능을 향상시키는가?
- RQ4Procgen 및 DM Control의 distractor에서 자동 증강 방법(UCB-DrAC, RL2-DrAC, Meta-DrAC)의 비교는 어떠한가?
- RQ5학습된 표현이 무관한 시각 변화(예: 배경)에 더 불변해지는가?
주요 결과
| 방법 | 학습 중앙값 | 학습 평균 | 학습 표준편차 | 테스트 중앙값 | 테스트 평균 | 테스트 표준편차 |
|---|---|---|---|---|---|---|
| PPO | 100.0 | 100.0 | 7.2 | 100.0 | 100.0 | 8.5 |
| Rand-FM | 93.4 | 87.6 | 8.9 | 91.6 | 78.0 | 9.0 |
| IBAC-SNI | 91.9 | 103.4 | 8.5 | 86.2 | 102.9 | 8.6 |
| Mixreg | 95.8 | 104.2 | 3.1 | 105.9 | 114.6 | 3.3 |
| PLR | 101.5 | 106.7 | 5.6 | 107.1 | 128.3 | 5.8 |
| DrAC (Best) (Ours) | 114.0 | 119.6 | 9.4 | 118.5 | 138.1 | 10.5 |
| RAD (Best) | 103.7 | 109.1 | 9.6 | 114.2 | 131.3 | 9.4 |
| UCB-DrAC (Ours) | 102.3 | 118.9 | 8.8 | 118.5 | 139.7 | 8.4 |
| RL2-DrAC | 96.3 | 95.0 | 8.8 | 99.1 | 105.3 | 7.1 |
| Meta-DrAC | 101.3 | 100.1 | 8.5 | 101.7 | 101.2 | 7.3 |
- UCB-DrAC가 Procgen에서 최첨단 성능을 달성하여 여러 베이스라인을 능가하고 최적 작업 증강과 일치하거나 이를 능가한다.
- 정책과 가치 함수 모두를 정규화하는 것이 중요하다; DrAC은 한 구성요소만을 정규화한 변형들보다 우수하다.
- 자동 증강은 UCB-DrAC를 통해 게임 전반에서 강건하고 안정적인 성능을 제공하며 종종 고정 증강 베이스라인을 능가한다.
- Distractor가 있는 DeepMind Control에서 UCB-DrAC는 도전적인 배경 설정에서 PPO 및 RAD를 지속적으로 능가한다.
- Procgen 전반에 걸쳐, UCB-DrAC는 배경 민감도가 더 낮고(사이클-일관성이 더 높음) 표현의 불변성이 더 좋다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.