[논문 리뷰] Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
SLAC는 고차원 관측으로부터 확률적 잠재 모델을 학습한 후 잠재 공간에서 RL을 수행하여 이미지에서의 샘플 효율적이고 고성능의 연속 제어를 달성합니다.
Deep reinforcement learning (RL) algorithms can use high-capacity deep networks to learn directly from image observations. However, these high-dimensional observation spaces present a number of challenges in practice, since the policy must now solve two problems: representation learning and task learning. In this work, we tackle these two problems separately, by explicitly learning latent representations that can accelerate reinforcement learning from images. We propose the stochastic latent actor-critic (SLAC) algorithm: a sample-efficient and high-performing RL algorithm for learning policies for complex continuous control tasks directly from high-dimensional image inputs. SLAC provides a novel and principled approach for unifying stochastic sequential models and RL into a single method, by learning a compact latent representation and then performing RL in the model's learned latent space. Our experimental evaluation demonstrates that our method outperforms both model-free and model-based alternatives in terms of final performance and sample efficiency, on a range of difficult image-based control tasks. Our code and videos of our results are available at our website.
연구 동기 및 목표
- 이미지 기반 RL의 표현 학습 병목 현상을 태스크 학습과 표현 학습 분리로 해결한다.
- 환경의 잠재 시퀀스 모델을 학습하여 RL에 정보를 제공하는 잠재 상태를 마련한다.
- 감독자 없이도 관찰 및 행동의 이력에서 직접 정책을 학습하되 평가자인 크리틱에는 잠재 상태를 사용한다.
- 도전적인 이미지 기반 제어 작업에서 샘플 효율성과 강한 최종 성능을 보여준다.
제안 방법
- 이미지 관측으로부터 POMDP를 표현하기 위해 가우시안 사전 및 잠재 동역학을 갖는 확률적 순차 잠재 변수 모델을 제안한다.
- 관찰 및 행동의 시퀀스로부터 잠재 상태를 학습하기 위해 변분 추론 모델을 학습한다.
- 잠재 모델을 최대 엔트로피 정책-비평가 RL 목표와 결합하고, 비평가에는 잠재 상태 샘플을, 행위자에는 관찰/행동의 이력을 사용한다.
- 모델 목표 항목과 정책 목표 항목을 포함하는 공동 ELBO로 학습 목표를 형식화하여 동시에 표현 학습과 제어를 가능하게 한다.
- 필터링 분포에서 잠재 상태를 샘플링하기 위한 재매개화와 두 명의 크리틱을 사용한 소프트 Q-학습으로 훈련을 안정화한다.
- DeepMind Control Suite 및 OpenAI Gym의 이미지 기반 연속 제어 벤치마크에서 SLAC를 평가한다.
실험 결과
연구 질문
- RQ1이미지 관측으로부터 학습된 확률적 잠재 표현이 연속 제어 작업에서 RL을 가속화할 수 있는가?
- RQ2잠재 변수 모델을 통한 표현 학습 분리와 정책 학습의 분리가 모델 프리 및 모델 기반 기준선과 비교해 샘플 효율성과 최종 성능을 개선하는가?
- RQ3 행위자가 관찰 및 행동의 이력에 기반한 의사 결정을 할당하는 상태에서 잠재 공간에서 RL을 수행하는가, 부분 관찰성에 강건한가?
- RQ4가변 ELBO 프레임워크를 사용하는 제어-추론 관점이 잠재 동역학을 가진 RL에서 어떻게 작동하는가?
- RQ5잠재 모델의 아키텍처 선택(시간 의존성, 확률성)이 성능에 가장 큰 영향을 미치는가?
주요 결과
- SLAC는 도전적인 이미지 기반 연속 제어 작업에서 모델 프리 및 모델 기반 기준선과 비교하여 경쟁적이거나 우수한 최종 성능을 달성한다.
- 잠재 공간 접근은 모델 프리 RL과 유사한 강력한 최종 성능을 유지하면서 샘플 효율성을 향상시킨다.
- 시간 의존성을 갖는 완전한 확률적 순차 잠재 모델은 RL에서 표현 학습에 있어 비순차적이거나 결정론적 변형보다 더 나은 성능을 보인다.
- 행위자에는 관찰 및 행동의 이력을 사용하고 평가자인 크리틱은 잠재 상태 샘플에서 학습하는 방식이 안정적이고 효과적인 학습을 제공합니다.
- SLAC는 DVRL보다 상당히 뛰어나고 이미지 기반 벤치마크에서 후속 접근 방식의 성능과 같거나 그 이상을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.