QUICK REVIEW

[논문 리뷰] VAE with a VampPrior

Jakub M. Tomczak, Max Welling|arXiv (Cornell University)|2017. 05. 19.

Generative Adversarial Networks and Image Synthesis참고 문헌 24인용 수 60

한 줄 요약

본 논문은 VampPrior를 소개합니다. 학습 가능한 의사 입력(u_k)에 대한 포스터리어의 혼합으로 구성된 변분적 사후 분포 기반 우선(prior)과 두 층의 계층적 VAE를 제시하여 우선과 사후를 함께 학습시킴으로써 잠재 표현을 개선하고 비활성 잠재 단위를 피하며, 여섯 개 데이터셋에서 강력한 성과를 달성합니다.

ABSTRACT

Many different methods to train deep generative models have been introduced in the past. In this paper, we propose to extend the variational auto-encoder (VAE) framework with a new type of prior which we call "Variational Mixture of Posteriors" prior, or VampPrior for short. The VampPrior consists of a mixture distribution (e.g., a mixture of Gaussians) with components given by variational posteriors conditioned on learnable pseudo-inputs. We further extend this prior to a two layer hierarchical model and show that this architecture with a coupled prior and posterior, learns significantly better models. The model also avoids the usual local optima issues related to useless latent dimensions that plague VAEs. We provide empirical studies on six datasets, namely, static and binary MNIST, OMNIGLOT, Caltech 101 Silhouettes, Frey Faces and Histopathology patches, and show that applying the hierarchical VampPrior delivers state-of-the-art results on all datasets in the unsupervised permutation invariant setting and the best results or comparable to SOTA methods for the approach with convolutional networks.

연구 동기 및 목표

VAE를 보다 유연하고 변량적 사후와의 정렬을 개선하여 VAE의 동기를 부여하고 개선한다.
학습 가능한 의사 입력으로 조건화된 포스터리들로 형성된 다모달(multimodal) 우선인 VampPrior를 도입한다.
비활성 확률 변수 문제를 완화하고 표현 품질을 높이기 위해 두 층의 계층형 VAE를 제안한다.
다양한 데이터셋과 아키텍처에 걸친 표준 정규 우선 대비 실증적 이득을 보인다.

제안 방법

VAE의 ELBO를 도출하고 이를 재구성 항과 정규화 구성요소로 재해석한다.
VampPrior 제안: p(z) = (1/K) sum_k q_phi(z|u_k), 여기서 u_k는 인코더 q_phi에 결합된 학습 가능한 의사 입력이다.
우선과 포스터리어를 결합하여 공동 최적화와 더 풍부한 잠재 구조를 촉진한다.
z1과 z2의 두 층 VAE로 확장하여 p(z1|z2)와 p(z2)가 VampPrior를 따르고 q_phi(z1|x,z2), q_psi(z2|x)가 근사 포스터리를 정의한다.
대안 우선들(SG, MoG, VampPrior data)과의 비교를 통해 제거 실험(ablation)을 수행한다.
MLP 및 CNN 기반 인코더/디코더를 포함하고 PixelCNN 디코더를 사용하여 여섯 개 이미지 데이터셋에서 평가한다.

실험 결과

연구 질문

RQ1VampPrior가 표준 정규 우선에 비해 잠재 표현의 질과 생성 성능을 향상시키는가?
RQ2VampPrior를 갖춘 두 층 계층형 VAE가 비활성 확률 단위를 완화하고 데이터셋 전반에서 한 층 VAE보다 성능이 우수한가?
RQ3MoG 및 SG 우선과 비교하여 VampPrior가 결합 포스터리어를 사용할 때 학습 다이나믹과 성능 면에서 우수한가, 또는 데이터 고정 의사 입력에서?
RQ4Convolutional 아키텍처와 자동 회귀 여부에 관계없이 VampPrior를 사용하는 경우 벤치마크 이미지 데이터셋에서의 영향은 어떠한가?

주요 결과

VampPrior는 여러 아키텍처와 데이터셋에서 표준 정규 우선보다 테스트 로그 가능도(test log-likelihood)를 반복적으로 향상시켰다.
계층형 VampPrior VAE는 static MNIST, dynamic MNIST, OMNIGLOT, Caltech 101 Silhouettes에서 최첨단 성능을 달성하고, 강력한 디코더를 사용할 때 다른 데이터셋에서도 경쟁력 있는 결과를 보였다.
VampPrior는 특히 두 번째 층에서 활성 확률 변수의 수를 증가시켜 심층 VAE의 비활성 단위 문제를 해결했다.
학습된 의사 입력은 보편적인 객체로 수렴하는 경향이 있지만 다양한 특징 변형을 생성해 의미 있고 망각되지 않는 표현을 나타낸다.
MoG 및 SG 우선과 비교하여 결합 포스터리어를 가진 VampPrior가 ELBO 및 생성 품질면에서 우수하고, 무작위 의사 입력(VampPrior data)은 유연성이 덜하다.
Convolutional 인코더/디코더와 PixelCNN 디코더를 VampPrior와 함께 사용하면 테스트된 데이터셋에서 비자주적 및 자가회귀 VAE 중에서도 최상의 결과를 얻은 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.