QUICK REVIEW

[논문 리뷰] Reinforcement Learning with Augmented Data

Michael Laskin, Kimin Lee|arXiv (Cornell University)|2020. 04. 30.

Reinforcement Learning in Robotics참고 문헌 54인용 수 246

한 줄 요약

RAD는 RL 학습에 데이터 증강을 추가하여 픽셀 기반 및 상태 기반 입력에 대한 데이터 효율성과 일반화를 향상시키되, 기본 RL 알고리즘은 변경하지 않는다.

ABSTRACT

Learning from visual observations is a fundamental yet challenging problem in Reinforcement Learning (RL). Although algorithmic advances combined with convolutional neural networks have proved to be a recipe for success, current methods are still lacking on two fronts: (a) data-efficiency of learning and (b) generalization to new environments. To this end, we present Reinforcement Learning with Augmented Data (RAD), a simple plug-and-play module that can enhance most RL algorithms. We perform the first extensive study of general data augmentations for RL on both pixel-based and state-based inputs, and introduce two new data augmentations - random translate and random amplitude scale. We show that augmentations such as random translate, crop, color jitter, patch cutout, random convolutions, and amplitude scale can enable simple RL algorithms to outperform complex state-of-the-art methods across common benchmarks. RAD sets a new state-of-the-art in terms of data-efficiency and final performance on the DeepMind Control Suite benchmark for pixel-based control as well as OpenAI Gym benchmark for state-based control. We further demonstrate that RAD significantly improves test-time generalization over existing methods on several OpenAI ProcGen benchmarks. Our RAD module and training code are available at https://www.github.com/MishaLaskin/rad.

연구 동기 및 목표

시각적 관찰로부터 데이터 효율적이고 일반화 가능한 RL을 동기화한다.
추가 손실 없이 RL에서 다양한 데이터 증강의 효과를 조사한다.
증강이 픽셀 기반 및 상태 기반 벤치마크에서 성능을 향상시킨다는 것을 보여준다.
RAD를 일반적인 RL 방법과 호환되는 간단한 플러그앤플레이 모듈로 확립한다.

제안 방법

RL 학습 중 입력 관찰에 확률적 데이터 증강을 적용한다.
픽셀 입력의 프레임 스택 전체에 걸쳐 증강을 일관되게 사용하고, 상태 입력의 시간 축에 걸쳐 사용한다.
핵심 손실을 변경하지 않고 기본 RL 알고리즘(SAC: off-policy; PPO: on-policy)에 RAD를 플러그인한다.
이미지에 대해 10가지 증강(crop, translate, window, grayscale, cutout, cutout-color, flip, rotate, random convolution, color jitter)을 탐구하고; 고유수용감각 입력에 대해서는 임의 진폭 스케일링을 도입한다.
DMControl(픽셀) 및 OpenAI ProcGen(일반화)과 OpenAI Gym 상태 기반 작업을 평가한다.
오픈 소스 RAD 코드 구현을 제공한다.

실험 결과

연구 질문

RQ1픽셀 입력의 데이터에서 RL의 데이터 효율성을 기본 알고리즘을 변경하지 않고 향상시킬 수 있는가?
RQ2어떤 증강이 벤치마크 전반에서 RL의 성능과 일반화를 가장 효과적으로 향상시키는가?
RQ3증강이 픽셀 기반 입력을 넘어 상태 기반(고유수용) RL 설정에도 이익을 확장하는가?
RQ4증강이 표현 학습과 보지 못한 환경으로의 일반화에 어떤 영향을 미치는가?

주요 결과

RAD는 픽셀 입력이 있는 모든 평가된 DMControl 환경에서 데이터 효율성과 최종 성능에서 최첨단 성능을 달성한다.
RAD는 테스트된 구간에서 보조 손실 없이 픽셀 기반 SAC의 데이터 효율성을 약 4배 향상시킨다.
RAD는 DMControl 환경에서 많은 상태 기반 벤치마크를 따라가거나 능가하여 고유수용 입력에 광범위한 적용 가능성을 시사한다.
랜덤 크롭과 랜덤 트랜슬레이트는 픽셀 입력에 대해 가장 영향력이 큰 증강 중 하나이다.
RAD는 OpenAI ProcGen 벤치마크의 테스트 시 일반화를 크게 향상시킨다.
새로운 임의 진폭 스케일링 증강은 상태 기반 RL의 성능과 입력 잡음에 대한 강건성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.