[논문 리뷰] Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation
SVEA는 오프폴리시 RL에서 데이터 증강하에 Q-값 추정을 안정화하여 DMControl 및 로봇 작업에서 ConvNets와 ViT 아키텍처의 안정성과 일반화 성능을 모두 향상시킨다.
While agents trained by Reinforcement Learning (RL) can solve increasingly challenging tasks directly from visual observations, generalizing learned skills to novel environments remains very challenging. Extensive use of data augmentation is a promising technique for improving generalization in RL, but it is often found to decrease sample efficiency and can even lead to divergence. In this paper, we investigate causes of instability when using data augmentation in common off-policy RL algorithms. We identify two problems, both rooted in high-variance Q-targets. Based on our findings, we propose a simple yet effective technique for stabilizing this class of algorithms under augmentation. We perform extensive empirical evaluation of image-based RL using both ConvNets and Vision Transformers (ViT) on a family of benchmarks based on DeepMind Control Suite, as well as in robotic manipulation tasks. Our method greatly improves stability and sample efficiency of ConvNets under augmentation, and achieves generalization results competitive with state-of-the-art methods for image-based RL in environments with unseen visuals. We further show that our method scales to RL with ViT-based architectures, and that data augmentation may be especially important in this setting.
연구 동기 및 목표
- 보이지 않는 환경에 일반화되는 시각 관찰로부터 강인한 정책을 학습하도록 동기를 부여한다.
- 오프폴리시 RL에 데이터 증강을 적용할 때 불안정성의 원인을 식별한다.
- 증강으로 인한 분산 및 과규제화를 최소화하는 간단하고 효과적인 안정화 프레임워크를 제안한다.
- 다양한 작업과 벤치마크에서 ConvNets 및 Vision Transformers로의 확장성을 입증한다.
제안 방법
- 오프폴리시 Q-러닝에 데이터 증강을 적용할 때의 불안정성 원인을 분석한다.
- 둘의 데이터 스트림(증강된 것과 비증강된 것)과 혼합 Q-러닝 목표를 갖는 데이터 증강 프레임워크인 SVEA를 도입한다.
- 부트스트랩 대상 Q-값에는 적용하지 않고 현재 상태 Q-값 추정에만 증강을 적용한다.
- 증강 데이터와 비증강 데이터를 함께 최적화하는 데이터 혼합 목표를 사용한다.
- 액터가 있다면 비증강 데이터로 학습하도록 유지하고, 일반화를 촉진하기 위해 인코더를 공유한다.
- 추가적인 순전파나 학습 가능한 매개변수를 필요로 하지 않는 구현을 제공한다.
실험 결과
연구 질문
- RQ1신경망을 사용한 오프폴리시 Q-러닝에서 데이터 증강을 사용할 때 주요한 불안정성 원인은 무엇인가?
- RQ2계산 비용을 증가시키지 않으면서 증강 인식 학습 목표가 Q-값 추정을 안정화시킬 수 있는가?
- RQ3제안된 안정화 방법이 이미지 기반 RL 벤치마크에서 ConvNets와 Vision Transformers로 얼마나 잘 확장되는가?
- RQ4이 방법이 DMControl 관련 벤치마크와 로봇 조작 작업에서 보이지 않는 시각에 대한 일반화를 향상시키는가?
주요 결과
- SVEA는 DMControl 작업에서 강한 증강과 함께 Q-러닝의 안정성과 샘플 효율성을 상당히 향상시킨다.
- SVEA는 최첨단 이미지 기반 RL 방법들과 비교해 경쟁력 있거나 더 우수한 수렴 성능 및 일반화를 달성한다.
- 현재 상태 Q-값 추정에 증강을 제한하고 듀얼 스트림의 혼합 목표를 사용하는 두 가지 핵심 구성요소가 분산과 과과규화를 줄인다.
- SVEA는 ViT 기반 아키텍처로 확장되며, 이 경우 증강은 과적합 방지에 특히 이롭다.
- 더 많은 증강(K,M)을 사용하는 DrQ 스타일 베이스라인은 계산 비용이 증가하는 반면, SVEA는 더 낮은 비용으로 성능을 맞추거나 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.