Skip to main content
QUICK REVIEW

[논문 리뷰] A Disentangled Recognition and Nonlinear Dynamics Model for Unsupervised Learning

M. Fraccaro, Simon Kamronn|arXiv (Cornell University)|2017. 10. 16.
Advanced Image Processing Techniques참고 문헌 30인용 수 115
한 줄 요약

칼만 변분 오토인코더(KVAE)는 물체 외관 표현(이 VAE를 통해)과 다이나믹스(선형 가우시안 상태공간 모델과 다이나믹스 파라미터 네트워크를 포함)를 위한 별개의 잠재 표현을 학습하여, 고차원 프레임을 렌더링하지 않고 엔드-투-엔드 무감독 학습, 장기 잠재 공간 추론, 누락 데이터 보간을 가능하게 한다.

ABSTRACT

This paper takes a step towards temporal reasoning in a dynamically changing video, not in the pixel space that constitutes its frames, but in a latent space that describes the non-linear dynamics of the objects in its world. We introduce the Kalman variational auto-encoder, a framework for unsupervised learning of sequential data that disentangles two latent representations: an object's representation, coming from a recognition model, and a latent state describing its dynamics. As a result, the evolution of the world can be imagined and missing data imputed, both without the need to generate high dimensional frames at each time step. The model is trained end-to-end on videos of a variety of simulated physical systems, and outperforms competing methods in generative and missing data imputation tasks.

연구 동기 및 목표

  • Sequential 데이터에서 객체 특이 인코딩과 다이나믹스의 해로운 분리를 달성한다.
  • 정확한 사후 추론을 지원하는 잠재 공간에서의 다이나믹스를 학습한다.
  • 전체 프레임 생성을 필요로 하지 않는 보간 및 장기 구동 추론을 가능하게 한다.
  • 원시 비디오 데이터로부터 엔드-투-엔드 무감독 학습을 촉진한다.

제안 방법

  • 각 비디오 프레임 x_t를 공유 인코더/디코더를 가진 VAE를 사용하여 저차원 잠재 a_t로 인코딩한다.
  • 잠재 z_t에서 LGSSM으로 a_t의 다이나믹스를 모델링하여, 구체적으로 Kalman smoothing이 주어졌을 때 정확한 포스터리어 추론을 가능하게 한다.
  • Past encodings a_{0:t-1}의 함수로 LGSSM 매개변수(A_t, B_t, C_t)를 모듈레이션하는 비선형적이고 시간에 따라 변하는 다이나믹스 파라미터 네트워크를 도입한다.
  • 학습 목표를 Kalman smoothing에서 얻은 p_gamma(z|a,u)가 포함된 구조화된 변분 분포로 ELBO를 최대화하는 형태로 정식화한다.
  • encoded a_t와 학습된 다이나믹스로 조건화된 LGSSM을 스무딩하여 고차원 자기회귀 프레임 생성을 피하면서 누락 데이터 보간을 가능하게 한다.
  • 시뮬레이션 물리 비디오에서 엔드-투-엔드로 학습시켜 RNN 기반 기준모델과 비교한다.

실험 결과

연구 질문

  • RQ1잠재 공간이 비디오 시퀀스에서 객체 외관을 객체 다이나믹스와 분리할 수 있는가?
  • RQ2Kalman smoothing을 VAE와 통합하면 누락 데이터 보간 및 장기 구동 생성이 향상되는가?
  • RQ3비선형 다이나믹스 시나리오를 비선형 매개변수화의 다이나믹스로 선형 가우시안 백본으로 효과적으로 포착할 수 있는가?
  • RQ4KVAE가 생성 및 보간 작업에서 대체 심층 순차 모델과 비교하여 어떤 성능을 보이는가?

주요 결과

모델테스트 ELBO
KVAE (CNN)810.08
KVAE (MLP)807.02
DVBF798.56
DMM784.70
  • KVAE는 튀어 오르는 공(ball)과 진자(pendulum) 과제에서 경쟁 모델에 비해 생성 및 누락 데이터 보간 성능이 향상된다.
  • LGSSM 백본에 대한 정확한 포스터리오 추론은 각 단계에서 고차원 프레임을 생성하지 않고도 스무딩 기반 보간을 가능하게 한다.
  • 다이나믹스 파라미터 네트워크가 여러 LGSSM 모드 간의 보간을 통해 비선형 상호작용을 포착하면서도 계산 가능한 스무딩을 유지한다.
  • KVAE는 과거 및 미래 프레임의 정보를 사용하여 누락 프레임을 보간할 수 있으며, 여러 누락 데이터 시나리오에서 자가 회귀 기준선보다 우수한 성능을 보인다.
  • 실험은 비디오에서 무감독으로 학습된 KVAE가 합당한 잠재 다이나믹스를 학습하고 환경 전반에 걸쳐 현실적인 궤적을 생성할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.