QUICK REVIEW

[논문 리뷰] DeepMDP: Learning Continuous Latent Space Models for Representation Learning

Carles Gelada, Saurabh Kumar|arXiv (Cornell University)|2019. 06. 06.

Reinforcement Learning in Robotics참고 문헌 58인용 수 67

한 줄 요약

DeepMDP는 두 가지 손실을 최소화하여 MDP의 연속 잠재 공간 모델을 학습하고, 보상 예측과 다음 잠재 상태 예측의 과정에서 이론적 보장과 RL에서 보조 작업으로 사용될 때 성능이 향상된다.

ABSTRACT

Many reinforcement learning (RL) tasks provide the agent with high-dimensional observations that can be simplified into low-dimensional continuous states. To formalize this process, we introduce the concept of a DeepMDP, a parameterized latent space model that is trained via the minimization of two tractable losses: prediction of rewards and prediction of the distribution over next latent states. We show that the optimization of these objectives guarantees (1) the quality of the latent space as a representation of the state space and (2) the quality of the DeepMDP as a model of the environment. We connect these results to prior work in the bisimulation literature, and explore the use of a variety of metrics. Our theoretical findings are substantiated by the experimental result that a trained DeepMDP recovers the latent structure underlying high-dimensional observations on a synthetic environment. Finally, we show that learning a DeepMDP as an auxiliary task in the Atari 2600 domain leads to large performance improvements over model-free RL.

연구 동기 및 목표

RL에 대한 표현 학습을 높이기 위해 고차원 관측치를 정보가 풍부한 연속 잠재 상태로 축소한다.
보상과 다음 상태 분포에 대해 계산 가능한 손실로 학습되는 DeepMDP 잠재 공간 모델을 제안한다.
잠재 공간 학습을 표현력 및 모델 품질과 연결하는 이론적 보장을 제공한다.
잠재 전이의 다양한 확률 메트릭을 조사하고 bisimulation과 연결한다.
모델-프리 RL 성능을 향상시키기 위한 보조 작업으로서의 DeepMDP의 실용성을 입증한다.

제안 방법

DeepMDP를 S에서 S_bar로의 임베딩 phi를 가지는 잠재 공간 모델로 정의한다.
두 손실 L_R = |R(s,a) - R_bar(phi(s),a)| 및 L_P = D(phi P(.|s,a), P_bar(.|phi(s),a])를 최소화하여 학습한다.
이 잠재 전이 손실에 대해 Wasserstein(및 다른 MMD 기반) 메트를 사용하여 이론적 보장을 가능하게 한다.
L_R, L_P 및 Lipschitz 상수에 대해 가치 차이 및 표현 품질에 대한 전역적/국소적 한계를 도출한다.
Wasserstein 메트릭과 bisimulation 메트릭 간의 DeepMDP 연결을 확립한다.
노름-MMD 메트릭에 대한 보장을 일반화하고 깊은 네트워크 정책 학습에 대한 시사점을 논의한다.

실험 결과

연구 질문

RQ1보상 및 전이 예측으로 학습된 매개변수화된 잠재 공간 모델이 상태 공간의 좋은 표현과 환경에 대한 좋은 모델을 모두 제공할 수 있는가?
RQ2확률 메트릭의 선택(특히 Wasserstein)이 보장 및 bisimulation과의 관계에 어떤 영향을 미치는가?
RQ3DeepMDP 표현이 고차원 관측에 내재된 잠재 구조를 복원하는가?
RQ4예를 들어 Atari 2600 게임에서 보조 작업으로 사용될 때 DeepMDP가 모델-프리 RL을 향상시킬 수 있는가?
RQ5부분 상태 공간 데이터에서 DeepMDP를 학습할 때의 로컬(데이터 효율적인) 보장은 무엇인가?

주요 결과

DeepMDP는 정확한 잠재 예측이 원래 MDP의 가치 함수도 정확하게 만든다는 한계를 제공한다.
임베딩 phi는 전역 손실 L_R과 L_P가 0이면 DeepMDP가 Lipschitz 항까지 가치 관계를 보존하도록 한다.
Wasserstein 기반 DeepMDP 손실과 bisimulation 메트릭 간의 이론적 연결이 확립되었다.
부분 상태-전이 데이터만 이용 가능한 경우 로컬 DeepMDP 손실이 보장을 가능하게 한다.
합성 환경에서 고차원 관찰로부터 잠재 구조를 회복하는 DeepMDP의 실험적 결과가 있다.
Atari 2600에서 보조 작업으로 DeepMDP를 사용하면 모델-프리 기준선 대비 상당한 성능 향상을 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.