QUICK REVIEW

[논문 리뷰] Decoupling Representation Learning from Reinforcement Learning

Adam Stooke, Kimin Lee|arXiv (Cornell University)|2020. 09. 14.

Reinforcement Learning in Robotics참고 문헌 39인용 수 65

한 줄 요약

본 논문은 Augmented Temporal Contrast (ATC)를 제시한다. 이는 RL에서 표현 학습과 정책 학습을 분리하는 비지도 학습 과제이며, ATC로 학습된 인코더가 여러 환경 및 과제에서 엔드-투-엔드 RL과 같거나 더 우수하다는 것을 보인다.

ABSTRACT

In an effort to overcome limitations of reward-driven feature learning in deep reinforcement learning (RL) from images, we propose decoupling representation learning from policy learning. To this end, we introduce a new unsupervised learning (UL) task, called Augmented Temporal Contrast (ATC), which trains a convolutional encoder to associate pairs of observations separated by a short time difference, under image augmentations and using a contrastive loss. In online RL experiments, we show that training the encoder exclusively using ATC matches or outperforms end-to-end RL in most environments. Additionally, we benchmark several leading UL algorithms by pre-training encoders on expert demonstrations and using them, with weights frozen, in RL agents; we find that agents using ATC-trained encoders outperform all others. We also train multi-task encoders on data from multiple environments and show generalization to different downstream RL tasks. Finally, we ablate components of ATC, and introduce a new data augmentation to enable replay of (compressed) latent images from pre-trained encoders when RL requires augmentation. Our experiments span visually diverse RL benchmarks in DeepMind Control, DeepMind Lab, and Atari, and our complete code is available at https://github.com/astooke/rlpyt/tree/master/rlpyt/ul.

연구 동기 및 목표

RL에 대한 보상 비의존적 시각 표현 학습의 동기를 부여한다.
RL 손실과 무관하게 관찰로부터 강인한 인코더를 학습하기 위한 비지도 과제로 ATC를 제안한다.
다양한 환경에서 ATC 인코더 표현으로 온라인 RL을 시연한다.
다른 비지도 학습 방법과 ATC를 벤치마킹하고 다중 태스크 일반화를 평가한다.
ATC 구성 요소를 이해하기 위한 차단 실험과 데이터 증강 효과를 탐구한다.

제안 방법

Augmented Temporal Contrast (ATC) 도입: 관찰 o_t와 곧 다가오는 o_{t+k}를 궤적 내에서 연관시키는 대조 학습 과제이다.
공유 CNN 인코더를 통해 증강된 관찰을 인코딩하고, 선형 압축기를 사용해 잠재 코드로 축소하며, 잔차 예측기로 잠재 공간에서 앞으로 예측한다.
양의 샘플에 모멘텀 인코더를 사용하고 배치에서 네거티브를 사용하는 InfoNCE 손실을 적용한다.
관찰에 확률적 데이터 증강(임의 이동)을 적용하고, 앵커 코드를 대조하기 전에 처리하는 예측기 층을 활용한다.
RL이 잠재 표현에서만 학습되도록 오프라인(비지도)으로 encoder를 학습시키고, baselines에서 RL 중에 인코더 가중치를 고정하는 옵션도 있다.
선택적으로 새로운 증강(서브픽셀 임의 이동)을 도입해 잠재-이미지 재생과 추가 계산 없이도 가능하게 한다.

실험 결과

연구 질문

RQ1표현 학습을 강화 학습과 분리하는 것이 정책 성능의 저하 없이 가능한가?
RQ2ATC가 기존 UL 방법들과 비교해 RL용 인코더 사전학습에 더 우수한 비지도 과제인가?
RQ3ATC로 학습된 다중 태스크 인코더가 새로운 환경이나 과제로 일반화되는가?
RQ4ATC의 효과를 결정짓는 차단 및 증강은 무엇인가?
RQ5ATC가 다양한 벤치마크(DMControl, DMLab, Atari) 및 RL 알고리즘에서 어떻게 성능을 보이는가?

주요 결과

ATC로 학습된 인코더가 RL 그래디언트에서 분리되어 온라인으로 사용될 때, 대부분의 DMControl 및 DMLab 환경에서 그리고 Atari의 테스트된 게임 절반 이상에서 엔드-투-엔드 RL 인코더와 동등하거나 이를 능가한다.
사전 학습된 ATC 인코더의 가중치를 고정한 경우 DMControl, DMLab, Atari 벤치마크에서 다른 선도적인 UL 알고리즘보다 우월한 경우가 많다.
하나의 ATC 인코더를 여러 DMControl 환경에서 학습해도 가중치를 고정하면 새로운 다운스트림 태스크에 일반화될 수 있다.
ATC 차단 실험은 DMControl에서 데이터 증강이 필요하며, 서브픽셀 임의 이동은 추가 계산 없이 잠재-이미지 재생을 가능하게 한다.
환경 간 다중 태스크 사전학습은 일부 태스크의 이전 전달을 향상시킬 수 있지만, Atari 결과는 게임 간 전이의 제한을 보여주며 표현 용량과 도메인 차이가 중요함을 시사한다.
ATC를 보조 손실로 사용하거나 가중치 초기화에 활용하면 여러 Atari 게임에서 성능이 더 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.