Skip to main content
QUICK REVIEW

[논문 리뷰] Decoupling Representation Learning from Reinforcement Learning

Adam Stooke, Kimin Lee|arXiv (Cornell University)|2020. 09. 14.
Reinforcement Learning in Robotics참고 문헌 39인용 수 65
한 줄 요약

본 논문은 Augmented Temporal Contrast (ATC)를 제시한다. 이는 RL에서 표현 학습과 정책 학습을 분리하는 비지도 학습 과제이며, ATC로 학습된 인코더가 여러 환경 및 과제에서 엔드-투-엔드 RL과 같거나 더 우수하다는 것을 보인다.

ABSTRACT

In an effort to overcome limitations of reward-driven feature learning in deep reinforcement learning (RL) from images, we propose decoupling representation learning from policy learning. To this end, we introduce a new unsupervised learning (UL) task, called Augmented Temporal Contrast (ATC), which trains a convolutional encoder to associate pairs of observations separated by a short time difference, under image augmentations and using a contrastive loss. In online RL experiments, we show that training the encoder exclusively using ATC matches or outperforms end-to-end RL in most environments. Additionally, we benchmark several leading UL algorithms by pre-training encoders on expert demonstrations and using them, with weights frozen, in RL agents; we find that agents using ATC-trained encoders outperform all others. We also train multi-task encoders on data from multiple environments and show generalization to different downstream RL tasks. Finally, we ablate components of ATC, and introduce a new data augmentation to enable replay of (compressed) latent images from pre-trained encoders when RL requires augmentation. Our experiments span visually diverse RL benchmarks in DeepMind Control, DeepMind Lab, and Atari, and our complete code is available at https://github.com/astooke/rlpyt/tree/master/rlpyt/ul.

연구 동기 및 목표

  • RL에 대한 보상 비의존적 시각 표현 학습의 동기를 부여한다.
  • RL 손실과 무관하게 관찰로부터 강인한 인코더를 학습하기 위한 비지도 과제로 ATC를 제안한다.
  • 다양한 환경에서 ATC 인코더 표현으로 온라인 RL을 시연한다.
  • 다른 비지도 학습 방법과 ATC를 벤치마킹하고 다중 태스크 일반화를 평가한다.
  • ATC 구성 요소를 이해하기 위한 차단 실험과 데이터 증강 효과를 탐구한다.

제안 방법

  • Augmented Temporal Contrast (ATC) 도입: 관찰 o_t와 곧 다가오는 o_{t+k}를 궤적 내에서 연관시키는 대조 학습 과제이다.
  • 공유 CNN 인코더를 통해 증강된 관찰을 인코딩하고, 선형 압축기를 사용해 잠재 코드로 축소하며, 잔차 예측기로 잠재 공간에서 앞으로 예측한다.
  • 양의 샘플에 모멘텀 인코더를 사용하고 배치에서 네거티브를 사용하는 InfoNCE 손실을 적용한다.
  • 관찰에 확률적 데이터 증강(임의 이동)을 적용하고, 앵커 코드를 대조하기 전에 처리하는 예측기 층을 활용한다.
  • RL이 잠재 표현에서만 학습되도록 오프라인(비지도)으로 encoder를 학습시키고, baselines에서 RL 중에 인코더 가중치를 고정하는 옵션도 있다.
  • 선택적으로 새로운 증강(서브픽셀 임의 이동)을 도입해 잠재-이미지 재생과 추가 계산 없이도 가능하게 한다.

실험 결과

연구 질문

  • RQ1표현 학습을 강화 학습과 분리하는 것이 정책 성능의 저하 없이 가능한가?
  • RQ2ATC가 기존 UL 방법들과 비교해 RL용 인코더 사전학습에 더 우수한 비지도 과제인가?
  • RQ3ATC로 학습된 다중 태스크 인코더가 새로운 환경이나 과제로 일반화되는가?
  • RQ4ATC의 효과를 결정짓는 차단 및 증강은 무엇인가?
  • RQ5ATC가 다양한 벤치마크(DMControl, DMLab, Atari) 및 RL 알고리즘에서 어떻게 성능을 보이는가?

주요 결과

  • ATC로 학습된 인코더가 RL 그래디언트에서 분리되어 온라인으로 사용될 때, 대부분의 DMControl 및 DMLab 환경에서 그리고 Atari의 테스트된 게임 절반 이상에서 엔드-투-엔드 RL 인코더와 동등하거나 이를 능가한다.
  • 사전 학습된 ATC 인코더의 가중치를 고정한 경우 DMControl, DMLab, Atari 벤치마크에서 다른 선도적인 UL 알고리즘보다 우월한 경우가 많다.
  • 하나의 ATC 인코더를 여러 DMControl 환경에서 학습해도 가중치를 고정하면 새로운 다운스트림 태스크에 일반화될 수 있다.
  • ATC 차단 실험은 DMControl에서 데이터 증강이 필요하며, 서브픽셀 임의 이동은 추가 계산 없이 잠재-이미지 재생을 가능하게 한다.
  • 환경 간 다중 태스크 사전학습은 일부 태스크의 이전 전달을 향상시킬 수 있지만, Atari 결과는 게임 간 전이의 제한을 보여주며 표현 용량과 도메인 차이가 중요함을 시사한다.
  • ATC를 보조 손실로 사용하거나 가중치 초기화에 활용하면 여러 Atari 게임에서 성능이 더 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.