Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Invariant Representations for Reinforcement Learning without Reconstruction

Amy Zhang, Rowan McAllister|arXiv (Cornell University)|2020. 06. 18.
Reinforcement Learning in Robotics인용 수 97
한 줄 요약

이 논문은 고차원의 관찰에서 데이터 효율적 RL을 개선하고 작업과 무관한 세부를 무시하기 위해 바실레이션 지표와 정렬된 잠재 인코딩을 학습하는 비재구성 표현 학습 방법인 Deep Bisimulation for Control (DBC)을 소개한다.

ABSTRACT

We study how representation learning can accelerate reinforcement learning from rich observations, such as images, without relying either on domain knowledge or pixel-reconstruction. Our goal is to learn representations that both provide for effective downstream control and invariance to task-irrelevant details. Bisimulation metrics quantify behavioral similarity between states in continuous MDPs, which we propose using to learn robust latent representations which encode only the task-relevant information from observations. Our method trains encoders such that distances in latent space equal bisimulation distances in state space. We demonstrate the effectiveness of our method at disregarding task-irrelevant information using modified visual MuJoCo tasks, where the background is replaced with moving distractors and natural videos, while achieving SOTA performance. We also test a first-person highway driving task where our method learns invariance to clouds, weather, and time of day. Finally, we provide generalization results drawn from properties of bisimulation metrics, and links to causal inference.

연구 동기 및 목표

  • 고차원 관측에서 산만 요소를 무시하는 작업-관련 표현 학습 유도.
  • 잠재 거리와 바실레이션 거리를 맞추기 위한 그래디언트 기반 인코더 학습 방법 제안.
  • 학습된 표현이 다양한 시각적 산만 요소에 대해 강건한 다운스트림 제어를 가능하게 한다는 것 입증.
  • 학습된 표현과 최적 가치 함수 및 인과 특성 집합의 경계 사이를 연결하는 이론적 보장을 제공.

제안 방법

  • 온-policy 바실레이션 지수와의 거리를 잠재 공간 거리로 정의하고 최적화하는 손실 J(phi) 및 |z_i - z_j|_1과 |r_i - r_j| + gamma W_2(P_hat(.|z_i,a_i), P_hat(.|z_j,a_j)) 와 정렬하는 (Equation 4).
  • 잠재 전이의 예측 Gaussian 간의 Wasserstein-2 거리를 계산하기 위한 확률적 역학 모델 사용.
  • 인코더 phi 를 강화 학습 알고리즘(SAC)과 통합하여 인코더, 정책, 역학 모델이 반복적으로 학습되도록 한다(Algorithm 1 and Algorithm 2).
  • 학습된 pi*-바실레이션 지수가 고정점으로 수렴하고, 바실레이션 기반 잠재 거리와 가치 함수의 리프시츠 경계에 대해 보인다/증명한다.
  • 바실레이션 기반 표현과 보상(CA) 인과 선인들의 일반화에 대한 통찰 제공.

실험 결과

연구 질문

  • RQ1비재구성적, 바실레이션 기반 표현이 시각 기반 RL에서 산만함을 무시하는 작업-관련 잠재 인코딩을 학습할 수 있는가?
  • RQ2잠재 공간 거리를 바실레이션 거리와 맞추는 것이 재구성이나 대조 방법과 비교해 데이터 효율성과 시각적 산만에 대한 강건함을 개선하는가?
  • RQ3학습된 표현이 가치 함수 경계 및 인과 추론 개념과 어떤 이론적 보장을 연결하는가?
  • RQ4다른 보상 함수와 산만 유형(예: 운전 태스크의 구름, 날씨, 시간대 등) 간에 접근 방식이 얼마나 잘 일반화되는가?

주요 결과

MethodSuccesses (100m)Distance (m)Crash intensityAverage steer
SAC12123.2 ± 7.434604 ± 30.716.6% ± 0.019%
DeepMDP17106.7 ± 11.11958 ± 15.610.4% ± 0.015%
DBC (ours)24179.0 ± 11.42673 ± 38.57.3%
  • DBC 는 시각적 제어 벤치마크에서 배경 산만에 대한 최첨단 강건성을 달성하며, 산만한 MuJoCo 작업에서 재구성과 대조적 베이스라인보다 우수하다.
  • CARLA 같은 높은 시각적 현실감의 운전 스타일 작업에서 DBC는 베이스라인을 크게 능가하고 더 높은 작업 성공 및 충돌 없이 더 큰 거리 달성.
  • 해당 운전 실험에서 다음 최적 베이스라인 대비 46.8% 개선.
  • DBC 에서 학습된 잠재 표현은 배경 변화에 관계없이 비슷한 작업 관련 상태를 함께 군집화한다는 정성적 시각화를 통해 보여준다.
  • 이론적 결과는 학습된 잠재 바실레이션 지표를 최적 가치 함수의 리프시츠 경계 및 보상 예측의 인과 선인에 대한 충분성과 연결한다.
  • 실증 일반화: 학습된 표현은 보지 못한 산만 요소와 같은 새로운 보상 함수에 대해서도 동일한 인과 선인을 공유하는 일반화를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.