QUICK REVIEW

[논문 리뷰] DARLA: Improving Zero-Shot Transfer in Reinforcement Learning

Irina Higgins, Arka Pal|arXiv (Cornell University)|2017. 07. 26.

Reinforcement Learning in Robotics참고 문헌 49인용 수 139

한 줄 요약

DARLA는 1단계의 비지도 시각에서 해상된 잠재 표현을 학습하고, 2단계에서 소스 정책을 학습한 뒤 대상 도메인 데이터 없이도 다양한 도메인 변화에 걸친 제로샷 전이를 가능하게 한다. 이 접근법은 DeepMind Lab 및 Jaco/MuJoCo 환경과 여러 RL 알고리즘에서 로버스트성을 향상시킨다.

ABSTRACT

Domain adaptation is an important open problem in deep reinforcement learning (RL). In many scenarios of interest data is hard to obtain, so agents may learn a source policy in a setting where data is readily available, with the hope that it generalises well to the target domain. We propose a new multi-stage RL agent, DARLA (DisentAngled Representation Learning Agent), which learns to see before learning to act. DARLA's vision is based on learning a disentangled representation of the observed environment. Once DARLA can see, it is able to acquire source policies that are robust to many domain shifts - even with no access to the target domain. DARLA significantly outperforms conventional baselines in zero-shot domain adaptation scenarios, an effect that holds across a variety of RL environments (Jaco arm, DeepMind Lab) and base RL algorithms (DQN, A3C and EC).

연구 동기 및 목표

도메인 적응이 어렵거나 불가능한 강화학습(RL)에서의 목표 도메인 데이터 부족 문제에 대한 동기를 제시한다.
robust 제로샷 전이를 달성하기 위한 세 단계 파이프라인(보기를 배우고, 행동을 배우고, 전이)을 제안한다.
해상된 표현이 다양한 환경과 RL 알고리즘에서 도메인 변화에 강한 정책으로 이어진다는 것을 보여준다.
제로샷 전이에서 얽힌 표현과 기저 모델의 한계를 입증한다.
검토하려는 환경들 전반에 걸친 실험적 근거를 제공하여 견고성 주장를 뒷받침한다.

제안 방법

세 단계 DARLA 파이프라인: 1) raw 관찰로부터 비지도 해상 표현 학습(F_U)으로 시각 인식 학습; 2) 학습된 잠재 상태 s^z를 사용해 소스 도메인 정책으로 행동 학습; 3) 재학습 없이 대상 도메인에 대한 제로샷 전이를 평가하여 전이 수행.
β-VAE(및 지각 유사 손실이 포함된 β-VAE_DAE라 불리는 지각 유사성 손실이 있는 β-VAE)를 사용하여 고수준 생성 변인에 해당하는 해상된 잠재 인자들을 학습한다.
RL 단계 동안 비전 모듈 F_U를 고정해 전이 친화적인 표현을 강제한다.
잠재 상태에 표준 RL 알고리즘(DQN, A3C, Episodic Control)을 적용해 소스 정책을 학습한다.
해상된 표현 DARLA를 얽혀 있는 표현 및 denoising autoencoder 기반 벤치마크(DARLA_ENT, DARLA_DAE)와 비교한다.
도메인 변화에 대한 강건성을 평가하기 위해 DeepMind Lab 및 Jaco/MuJoCo를 시뮬레이터 간(sim2sim) 및 실제 간(sim2real) 시나리오에서 다양하게 평가한다.

실험 결과

연구 질문

RQ1비지도 단계에서 해상된 잠재 표현을 학습하는 것이 RL에서의 제로샷 전이를 도메인 변화에 걸쳐 향상시키는가?
RQ2DARLA가 얽힌 표현 혹은 대체 비지도 시각 모델과 비교해 다양한 RL 환경에서 벤치마크보다 성능이 더 나은가?
RQ3학습된 표현의 해상도 수준과 전이 성능 사이에 어느 정도의 상관관계가 있는가?
RQ4이 접근법이 도메인 보간(interpolation)과 외삽(extrapolation) 모두를 다루며 지각적 현실의 간극(sim2real)을 포함하는가?

주요 결과

DARLA는 여러 환경과 기본 RL 알고리즘에서 제로샷 도메인 적응에서 기존 벤치마크를 크게 능가한다.
1단계에서 학습된 해상된 잠재 표현은 정책이 도메인 속성 중 중요한 요소를 무시하도록 만들어 대상 도메인에 대한 일반화를 향상시킨다.
DARLA는 DeepMind Lab과 Jaco/MuJoCo 작업 및 DQN, A3C, Episodic Control에서 강건한 제로샷 전이를 보인다.
해상도 수준과 전이 성능 사이에는 양의 상관관계가 있다(전이/해상도 점수, r = 0.6, 한 분석에서 p < 0.001).
제로샷 전이에서 중위 개선치가 크게 나타나, 예를 들어/context에서 270.3%로 보고된 바와 같이 상당한 로버스트성 이득을 보인다.
좋은 시각 학습(해상된 표현)이 중요한 반면 얽힌 표현은 전이에서 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.