[논문 리뷰] Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels
The paper introduces DrQ, a simple data augmentation and Q-function regularization technique that enables model-free RL directly from pixels, achieving state-of-the-art results on multiple benchmarks without auxiliary losses or pre-training.
We propose a simple data augmentation technique that can be applied to standard model-free reinforcement learning algorithms, enabling robust learning directly from pixels without the need for auxiliary losses or pre-training. The approach leverages input perturbations commonly used in computer vision tasks to regularize the value function. Existing model-free approaches, such as Soft Actor-Critic (SAC), are not able to train deep networks effectively from image pixels. However, the addition of our augmentation method dramatically improves SAC's performance, enabling it to reach state-of-the-art performance on the DeepMind control suite, surpassing model-based (Dreamer, PlaNet, and SLAC) methods and recently proposed contrastive learning (CURL). Our approach can be combined with any model-free reinforcement learning algorithm, requiring only minor modifications. An implementation can be found at https://sites.google.com/view/data-regularized-q.
연구 동기 및 목표
- 모델-프리 RL에서 픽셀로 학습할 때 단순한 이미지 증강이 과적합을 감소시키는지를 입증한다.
- 오프-정책 RL에서 Q-함수를 정규화하기 위한 최적성-불변 변환을 제안한다.
- 이미지 증강을 대상 Q 및 Q-함수 증강과 결합하면 데이터 효율성이 향상된다는 것을 보인다.
- 다양한 작업에 걸쳐 고정된 하이퍼파라미터 집합을 사용해 DeepMind Control Suite와 Atari 100k에서 최첨단 성능을 입증한다.
제안 방법
- 리플레이 버퍼에서 샘플링하는 동안 학습 중 입력 이미지에 무작위 시프트를 적용한다.
- Q-값을 보존하는 최적성-불변 상태 변환을 정의하여 대상 및 Q-함수 추정치를 정규화한다.
- 강화된 대상 값을 계산하기 위해 K개의 타겟 Q 증강을 사용한다.
- 여러 변형된 상태에 대해 Q-값을 평균화하여 평가자를 정규화하기 위해 M개의 Q-함수 증강을 사용한다.
- 기본 알고리즘 구조를 변경하지 않고 이러한 증강을 표준 오프-정책 액터-비평 알고리즘(SAC 또는 DQN)과 결합한다.
실험 결과
연구 질문
- RQ1모델-프리 RL에서 픽셀 입력에 표준 이미지 변환을 적용했을 때 보조 손실 없이 과적합을 줄이고 데이터 효율성을 높일 수 있는가?
- RQ2최적성-불변 상태 변환이 오프-정책 RL에서 가치 함수의 정규화를 제공하는가?
- RQ3입력 증강을 대상 증강 및 Q-함수 증강과 결합하면 연속 및 이산 행동 영역에서 우수한 성능을 얻을 수 있는가?
- RQ4DrQ가 고정된 하이퍼파라미터로 DeepMind Control Suite와 Atari 100k 같은 벤치마크에서 최첨단 결과를 달성할 수 있는가?
주요 결과
- 이미지 시프트가 적용된 SAC(SAC [K=1,M=1])은 증강되지 않은 SAC에 비해 인코더 용량 전반에서 성능 차이를 크게 좁힌다.
- DrQ를 [K=2,M=2]로 설정하면 PlaNet 및 Dreamer 벤치마크에서 다른 방법을 능가하고 SAC-상한에 근접하거나 도달한다.
- Atari 100k 벤치마크에서 DrQ와 Efficient DQN의 결합은 최첨단 성능을 달성하며 CURL 및 다른 베이스라인을 능가한다.
- DrQ는 다양한 작업에서 고정된 하이퍼파라미터로도 견고한 성능을 보이며 강한 결과를 얻기 위해 파라미터 민감도가 필요하지 않음을 시사한다.
- 이 방법은 벽시계 시간 측면에서 더 빠른 속도를 보이고 모델 기반 구성요소나 보조 손실에 의존하지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.