Skip to main content
QUICK REVIEW

[논문 리뷰] SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

Marvin Zhang, Sharad Vikram|arXiv (Cornell University)|2018. 08. 28.
Reinforcement Learning in Robotics인용 수 130
한 줄 요약

SOLAR는 이미지에서 데이터 효율적인 모델 기반 강화학습을 가능하게 하는 잠재 표현과 전역 잠재 선형-제곱(LQS) 동역학을 학습하여, 지역 TVLG 모델과 LQR-FLM으로 정책 개선을 수행하며, Sawyer 로봇의 실제 작업에서 고해상도 이미지 기반 자율성을 보여준다.

ABSTRACT

Model-based reinforcement learning (RL) has proven to be a data efficient approach for learning control tasks but is difficult to utilize in domains with complex observations such as images. In this paper, we present a method for learning representations that are suitable for iterative model-based policy improvement, even when the underlying dynamical system has complex dynamics and image observations, in that these representations are optimized for inferring simple dynamics and cost models given data from the current policy. This enables a model-based RL method based on the linear-quadratic regulator (LQR) to be used for systems with image observations. We evaluate our approach on a range of robotics tasks, including manipulation with a real-world robotic arm directly from images. We find that our method produces substantially better final performance than other model-based RL methods while being significantly more efficient than model-free RL.

연구 동기 및 목표

  • 고차원의 이미지 관측이 있는 영역에서 데이터 효율적인 RL을 촉진한다.
  • 정확한 지역 선형 동역학 및 이차 비용 모델링을 가능하게 하는 표현을 개발한다.
  • 전역 잠재 LQS 모델링과 로컬 사후 추론을 결합하여 정책 개선을 추진한다.
  • 이미지 기반 로봇 작업에서 전이 및 희소 보상 능력을 시연한다.

제안 방법

  • 잠재 표현을 갖는 확률적 최적 제어(SOLAR) 프레임워크를 제안하고, 이는 잠재 공간과 전역 선형 가우시안 동역학 사전(global prior)을 함께 학습한다.
  • 이미지를 잠재 상태로 매핑하고 관측치를 재구성하기 위해 합성곱 인코더/디코더를 사용한다.
  • 궤적 간 동역학 변동성을 포착하기 위해 행렬 정규 역위슈트(MNIW) 사전이 포함된 선형 동역학(F, Sigma)에 대한 전역 사전(global prior)을 채택한다.
  • 데이터에 조건화된 후향 추정을 통해 각 시점에서 로컬 시간 가변 선형 동역학을 추론하며, 이를 전역 사전에서의 경험적 베이즈 업데이트로 간주한다.
  • ELBO와 같은 변분 오토인코더 스타일의 목적 함수를 적용하며 p(o_t|s_t) 및 p(c_t|s_t,a_t) 항을 포함하고, q(F,Sigma)에 대한 KL 패널티를 부과한다.
  • 데이터에 근접하도록 궤적 분포를 유지하기 위해 KL 제약이 있는 LQR-FLM(LQR with a KL constraint)으로 정책을 업데이트하여 모델링 바이어스를 완화한다.

실험 결과

연구 질문

  • RQ1SOLAR가 순방향 모델 예측 없이 고차원 이미지 관측으로부터 직접 효과적인 정책을 학습할 수 있는가?
  • RQ2로컬 선형-이차 모델링에 최적화된 잠재 표현이 표준 모델 기반 또는 모델 프리 베이스라인에 비해 데이터 효율성과 최종 성능을 향상시키는가?
  • RQ3SOLAR가 공유된 동역학 계통 내의 새로운 작업으로 학습된 표현/모델을 전이하고 희소 보상 신호를 처리할 수 있는가?
  • RQ4실제 세계의 이미지 기반 로봇 조작 작업에서 SOLAR의 성능은 어떠한가?

주요 결과

  • SOLAR는 이미지 기반 제어 작업에서 다른 모델 기반 RL 방법들보다 훨씬 더 우수한 최종 성능을 달성한다.
  • SOLAR는 테스트 도메인에서 모델 프리 RL에 비해 데이터 효율성이 크게 우수하다.
  • 64×64×3 이미지 관찰을 사용하는 실제 로봇 조작에서도 성공하며 Sawyer 암을 이용한 블록 적재 및 밀기 작업을 포함한다.
  • 여러 작업에서 학습된 기본 모델이 같은 분포 내의 새로운 작업으로 전이되어 학습을 가속한다.
  • 인간이 제공한 이진 성공 신호를 사용하여 희소 보상 설정을 지원한다.
  • 학습된 모델과 VAE baseline과 비교할 때, SOLAR는 여러 이미지 기반 작업에서 장기적 성능과 데이터 효율성 면에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.