Skip to main content
QUICK REVIEW

[논문 리뷰] Meta Reinforcement Learning with Latent Variable Gaussian Processes

Steindór Sæmundsson, Katja Hofmann|arXiv (Cornell University)|2018. 03. 20.
Gaussian Processes and Bayesian Inference참고 문헌 34인용 수 105
한 줄 요약

본 논문은 Latent-variable Gaussian Process를 이용해 과제 변동을 포착하는 모델 기반 메타 RL 접근법을 제시하여 온라인 잠재 추론 및 MPC 계획을 가능하게 하며, 데이터 효율성과 새로운 과제으로의 이전을 크게 달성한다.

ABSTRACT

Learning from small data sets is critical in many practical applications where data collection is time consuming or expensive, e.g., robotics, animal experiments or drug design. Meta learning is one way to increase the data efficiency of learning algorithms by generalizing learned concepts from a set of training tasks to unseen, but related, tasks. Often, this relationship between tasks is hard coded or relies in some other way on human expertise. In this paper, we frame meta learning as a hierarchical latent variable model and infer the relationship between tasks automatically from data. We apply our framework in a model-based reinforcement learning setting and show that our meta-learning model effectively generalizes to novel tasks by identifying how new tasks relate to prior ones from minimal data. This results in up to a 60% reduction in the average interaction time needed to solve tasks compared to strong baselines.

연구 동기 및 목표

  • 확률적이고 모델 기반 RL 설정 내에서 메타 학습의 프레임을 구성하여 관련 다이내믹 시스템 간 지식을 이전하기 위해.
  • 작업 명세의 잠재 표현에 조건화된 다이내믹 모델을 학습한다.
  • 온라인 잠재 변수 적응 및 데이터 효율적 계획을 가능하게 하기 위해 변분 추론과 희소 GP 방법을 사용한다.
  • cart-pole 및 double-pendulum 과제에서 전이 및 few-shot 학습 효과를 입증한다.

제안 방법

  • 잠재 과제 변수 h_p에 조건화된 Gaussian Processes로 다이내믹스를 모델링하여 x_{t+1} = f(x_t, c_t, h_p) + ε 이고, ε ~ N(0,E).
  • 상태 분포의 가우시안 근사를 사용하여 기대 유한-지평 비용을 최소화함으로써 제어 시퀀스를 계획하기 위해 MPC를 채택한다.
  • 전역 다이내믹스를 p(h_p)에서 뽑은 잠재 임베딩 h_p로 표현하고 궤적 동안 수집된 데이터로 온라인에서 h_p를 추론한다.
  • 희소 GP(유도점)와 함께 변분 추론을 사용하여 GP f와 잠재 변수 H에 대한 후방분포를 근사하고 많은 과제에 걸친 확장 가능한 학습을 가능하게 한다.
  • q(H)와 q(U)에 대한 KL 항을 포함하는 증거 하한(Evidence Lower Bound, ELBO)을 최적화하는 계층적 베이지안 모델로 학습한다.
  • 실시간 적응을 위한 미니배치 확률적 최적화(Adam)와 온라인 잠재 변수 업데이트를 활용한다.

실험 결과

연구 질문

  • RQ1GP를 잠재 변수로 조건화하는 것이 글로벌 다이내믹스와 과제별 다이내믹스를 구분해 주는가?
  • RQ2잠재 임베딩이 보지 못한 과제 구성을 일반화하여 예측 성능을 향상시킬 수 있는가?
  • RQ3ML-GP 접근법이 관련 과제들에서 모델 기반 RL의 데이터 효율성을 향상시키는가?
  • RQ4추정된 잠재 임베딩이 의미 있는 과제 구조를 얼마나 잘 반영하는가(예: 진자 시스템의 길이와 질량 등)?

주요 결과

  • ML-GP는 unseen tasks에서 예측 RMSE 및 NLL에서 희소 GP 기본값과 표준 GP를 능가한다.
  • 학습된 잠재 임베딩은 과제 특유의 변동을 글로벌 다이내믹스와 해리시키며 잠재 공간에 해석 가능한 구조를 보여준다.
  • 데이터 효율적 RL에서 ML-GP는 독립적으로 학습된 모델(SGP-I)보다 빠른 학습과 더 낮은 상호작용 시간을 달성하고 새로운 다이내믹에 적응하는 데 있어 SGP-ML을 능가한다.
  • cart-pole 및 double-pendulum 과제에서 ML-GP는 총 학습 및 테스트 시간을 감소시키고 더 우수한 전이/few-shot 성능을 보인다.
  • 제한된 관찰로 추정된 잠재 임베딩은 미래 상태 예측 및 MPC 지침에 정보성이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.