QUICK REVIEW

[논문 리뷰] CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Aravind Srinivas, Michael Laskin|arXiv (Cornell University)|2020. 04. 08.

Reinforcement Learning in Robotics인용 수 394

한 줄 요약

CURL은 대조적 자기지도 학습과 오프_POLICY 강화학습을 결합하여 픽셀 입력으로 데이터 효율성을 개선하고 DMControl 및 Atari 벤치마크에서 이전 픽셀 기반 방법에 비해 상당한 이득을 얻습니다.

ABSTRACT

We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://github.com/MishaLaskin/curl.

연구 동기 및 목표

고차원 픽셀 입력에서 RL의 데이터 효율적 학습 필요성 동기 부여.
간단하고 플러그인 형태의 대조 학습 프레임워크를 제안하여 복잡한 아키텍처 변경 없이 RL과 함께 표현 학습을 수행.
DMControl 및 Atari 과제에서 기존의 픽셀 기반 방법 대비 데이터 효율성과 성능 향상을 Demonstrate.
대조 목적이 이미지 기반 제어에서 상태 기반 방법의 샘플 효율성에 근접하거나 일치할 수 있음을 보여주기.

제안 방법

증강된 프레임 스택을 사용한 인스턴스 구분으로 대조 손실(InfoNCE)로 표현 학습.
MoCo 스타일의 모멘텀 평균 타깃 인코더를 사용하고 대조 점수를 위한 bilinear similarity (q^T W k).
쿼리 인코더 위에 RL 정책/가치 함수를 학습하는 한편 타깃 인코더는 그래디언트 흐름 없이 키를 제공.
프레임 스택 전반에 간단한 데이터 증강(무작위 크롭)을 적용해 타임 구조를 보존하며 쿼리-키 쌍 생성.
CURL을 기존 RL 알고리즘과 결합(SAC for DMControl; Atari의 데이터 효율적인 Rainbow)으로 최소한의 추가 하이퍼파라미터로.
대조 학습은 월드 모델이나 재구성 손실 없이 샘플 효율성을 향상시키는 보조 과제로 작용하는 것을 Demonstrate.

실험 결과

연구 질문

RQ1간단한 대조적 자기지도 목표가 픽셀 기반 RL 작업의 데이터 효율성을 향상시키는가?
RQ2CURL이 DMControl과 Atari에서 최신 픽셀 기반 방법과 비교해 경쟁력 있는 또는 우수한 샘플 효율성 및 성능을 달성할 수 있는가?
RQ3Heavy architectural changes 없이 간단하고 재현 가능한 파이프라인으로 대조 학습과 오프_POLICY RL을 통합하는 것이 가능한가?
RQ4모멘텀 인코딩 키와 이차 유사도가 표현 품질 및 다운스트림 제어 성능에 어떤 영향을 미치는가?

주요 결과

CURL은 DMControl에서 100k 단계에 대해 prior state-of-the-art 대비 중앙값 1.9배 더 높은 성능을 달성.
CURL은 Atari에서 100k 단계에 대해 prior 방법 대비 중앙값 1.2배 더 높은 성능을 달성.
DMControl에서 CURL은 최초의 이미지 기반 방법으로 다수의 환경에서 상태 기반 SAC의 샘플 효율성에 거의 도달함.
픽셀 기반 작업 전반에서 CURL은 모델 기반 및 모델 프리 베이스라인에 비해 상당한 데이터 효율성 향상을 보여준다.
저자들은 CURL의 간단성과 재현 가능성에 초점을 맞추며, 복잡한 아키텍처 변경이나 무거운 추가 하이퍼파라미터를 피한다.
CURL은 픽셀 입력을 가진 DMControl 16개 작업과 Atari 26개 게임에서 강력한 실험적 결과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.