Skip to main content
QUICK REVIEW

[논문 리뷰] World Models

David Ha, Jürgen Schmidhuber|arXiv (Cornell University)|2018. 03. 27.
Reinforcement Learning in Robotics참고 문헌 40인용 수 179
한 줄 요약

본 논문은 관측치를 압축하고 미래 잠재 상태를 예측하는 큰 RNN 기반 세계 모델(VAE + MDN-RNN)을 제시하여, 소형 제어기가 학습된 꿈 안에서의 훈련과 실제 환경으로의 정책 전달을 포함한 작업 수행을 가능하게 한다.

ABSTRACT

We explore building generative neural network models of popular reinforcement learning environments. Our <em>world model</em> can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using features extracted from the world model as inputs to an agent, we can train a very compact and simple policy that can solve the required task. We can even train our agent entirely inside of its own hallucinated dream generated by its world model, and transfer this policy back into the actual environment. An interactive version of this article is available at worldmodels.github.io.

연구 동기 및 목표

  • 사람의 인지 예측 메커니즘에서 영감을 얻은 예측 세계 모델을 동기 부여하고 구축한다.
  • 대형 비지도 학습 세계 모델이 원시 관측으로부터 시공간 표현을 압축하고 예측할 수 있음을 보여준다.
  • 세계 모델의 특징을 활용할 때 아주 작은 제어기가 작업을 해결할 수 있음을 보여준다.
  • 환각된 꿈 환경에서 정책을 훈련하고 이를 실제 환경으로 다시 전이하는 방법을 탐구한다.
  • 더 복잡한 환경에 대한 반복 학습과 호기심 주도 강화 가능성에 대해 논의한다.

제안 방법

  • 각 프레임을 잠재 벡터 z로 압축하기 위해 Variational Autoencoder(VAE)를 사용한다.
  • RNN과 함께 Mixture Density Network(MDN)을 사용하여 P(z_{t+1} | a_t, z_t, h_t)를 가우시안 혼합으로 모델링한다.
  • [z_t, h_t]를 행동으로 매핑하는 최소 선형 컨트롤러 C를 구현하고, CMA-ES 최적화를 위한 C의 경량화를 유지한다.
  • 무작위 롤아웃에서 수집된 데이터로 V와 MDN-RNN을 각각 학습시키고, 그다음 CMA-ES를 사용해 C를 최적화한다.
  • 선택적으로 C를 M에 의해 생성된 꿈 같은 세계에서 실행하거나 꿈에서 학습된 정책을 실제 환경으로 전이한다.
  • 반복 학습, 호기심 기제, 그리고 모델 불완전성에 대한 강건성에 대해 논의한다.

실험 결과

연구 질문

  • RQ1대형 비지도 세계 모델이 고차원 관측으로부터 컴팩트한 시공간 표현을 학습할 수 있는가?
  • RQ2간단한 컨트롤러가 세계 모델의 특징을 활용해 제어 작업을 얼마나 해결할 수 있는가?
  • RQ3학습된 꿈 안에서 정책을 훈련하고 실제 환경으로 전이하는 것이 가능한가?
  • RQ4MDN-RNN를 통한 불확실성 도입이 정책 학습과 전기에 어떤 영향을 미치는가?
  • RQ5동역학 모델이 불완전할 때 모델 기반 정책의 취약점은 무엇이며 이를 어떻게 완화할 수 있는가?

주요 결과

모델평균 점수
DQN (Prieur, 2017)343 ± 18
A3C (continuous) (Jang et al., 2017)591 ± 45
A3C (discrete) (Khan & Elibol, 2016)652 ± 10
ceobillionaire (Gym Leaderboard)838 ± 11
V model632 ± 251
V model with hidden layer788 ± 141
Full World Model906 ± 21
  • V 모델 + MDN-RNN은 컴팩트한 컨트롤러로 CarRacing-v0에서 강한 성능을 달성하게 하여 이전 방법들보다 우수하다.
  • 전체 세계 모델(V + M)을 사용하면 V 만 또는 단순 컨트롤러를 사용할 때보다 평균 점수가 더 높다.
  • CarRacing-v0에서 Full World Model은 906 ± 21를 달성하여 DQN, A3C 변형 및 이전 리더보드 결과를 능가한다.
  • 꿈 같은 환경(VizDoom Take Cover)에서의 학습은 실제 VizDoom 환경으로 전이되는 정책을 만들어 생존 시간 이득이 크게 나타난다.
  • MDN-RNN의 온도 τ를 조정하면 꿈의 난이도와 전이 가능성을 조절하여 현실성과 활용 가능성의 균형을 맞춘다.
  • 본 논문은 세계 모델의 잠재적 적대적 악용 가능성과 이를 완화하기 위한 불확실성의 필요성에 대해 논의한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.