QUICK REVIEW

[논문 리뷰] Discrete Variational Autoencoders

Jason Tyler Rolfe|arXiv (Cornell University)|2016. 09. 07.

Generative Adversarial Networks and Image Synthesis참고 문헌 47인용 수 44

한 줄 요약

이 논문은 이산 변분 autoencoder(discriminative VAEs)를 소개한다. 이는 방향성이 없는 이산 잠재 변수(제한된 볼츠만 기계로 모델링됨)와 계층적인 연속 잠재 변수를 결합한 새로운 종류의 확률 모델이다. 이산 분포에 적응된 재생성 기법을 사용해 이산 변수를 통해 역전파를 가능하게 함으로써, 엄밀한 우도 하한(lower bound)을 달성하고, 순열 불변성 있는 MNIST, Omniglot, Caltech-101 실루엣 데이터셋에서 최신 기술을 능가한다. 이는 비지도 학습을 통해 객체 클래스와 픽셀 수준의 세부 정보를 동시에 학습한다.

ABSTRACT

Probabilistic models with discrete latent variables naturally capture datasets composed of discrete classes. However, they are difficult to train efficiently, since backpropagation through discrete variables is generally not possible. We present a novel method to train a class of probabilistic models with discrete latent variables using the variational autoencoder framework, including backpropagation through the discrete latent variables. The associated class of probabilistic models comprises an undirected discrete component and a directed hierarchical continuous component. The discrete component captures the distribution over the disconnected smooth manifolds induced by the continuous component. As a result, this class of models efficiently learns both the class of objects in an image, and their specific realization in pixels, from unsupervised data, and outperforms state-of-the-art methods on the permutation-invariant MNIST, Omniglot, and Caltech-101 Silhouettes datasets.

연구 동기 및 목표

기존에 이산 변수를 통해 역전파를 지원하지 못하는 변분 autoencoder 프레임워크에서 이산 잠재 변수를 가진 확률 모델을 훈련하는 데 도전하는 것.
다양한 객체 클래스의 이미지처럼 여러 개의 분리된 매니폴드로 구성된 데이터셋을 다루기 위해, 이산적인 클래스 수준의 요소와 연속적인 변형 가능한 표현을 분리하는 것.
이산 잠재 변수를 가진 모델에서 사후 추론이 비가역적임에도 불구하고, 엄밀한 우도 하한(ELBO)을 유지하는 방법을 개발하는 것.
계층적인 사후 근사 모델을 사용해 이산 및 연속 잠재 변수를 동시에 가진 모델을 효율적이고 종단 간(end-to-end)으로 훈련하는 것.
특히 객체 정체성과 세부 시각적 변형을 모두 포착하는 데서 뛰어난 성능을 보이는 비지도 표현 학습 벤치마크에서의 초월적 성능을 입증하는 것.

제안 방법

모델 아키텍처는 이중형 제한된 볼츠만 기계(RBM)를 이산 잠재층으로 사용하고, 그 다음에 다중 계층의 연속 잠재 변수를 이어붙여 계층적인 생성 모델을 구성한다.
강한 상관관계를 가진 이산 잠재 변수를 모델링하기 위해 계층적인 사후 근사 모델을 사용하여 엄밀한 우도 하한(ELBO)을 확보한다.
이산 분포에 적응된 재생성 기법을 사용해 조건부-변량 분포의 역누적분포함수(inverse CDF)를 활용하여 이산 표본을 통한 기울기 추정을 가능하게 한다.
균일한 난수 변수를 이산 잠재 상태로 변환하는 미분 가능한 변환을 통해 역전파를 수행함으로써 이산 층을 통한 기울기 전파를 허용한다.
생성 과정에서 RBM 사전분포로부터 샘플링하기 위해 영구적인 마르코프 체인을 사용하여 안정적인 모드 탐색과 샘플 간 일관성 있는 모드를 확보한다.
모델은 ELBO의 확률적 최적화를 통해 훈련되며, 오토에코딩 항목은 재생성된 샘플링을 통해 계산되고, KL 항목은 해석적으로 계산되거나 근사된다.

실험 결과

연구 질문

RQ1변분 autoencoder 프레임워크에서 이산 잠재 변수를 통해 효과적으로 역전파를 적용할 수 있는가?
RQ2이산 잠재 변수를 가진 모델에서 계층적인 사후 근사 모델이 엄밀한 우도 하한(ELBO)을 유지할 수 있는가?
RQ3이산 및 연속 잠재 변수의 하이브리드 모델이 비지도 학습에서 객체 클래스와 세밀한 시각적 변형을 동시에 포착할 수 있는가?
RQ4이중적인 분리된 매니폴드를 가진 데이터셋, 예를 들어 MNIST, Omniglot, Caltech-101 실루엣에 대해 모델의 일반화 능력은 어느 정도인가?
RQ5감독 없이도 이산 잠재 공간에서 분리된, 해석 가능한 모드들이 객체 클래스에 대응하게 학습되는가?

주요 결과

200개의 이진 잠재 변수를 사용해 정적 이진화된 MNIST에서 이산 VAE는 -97.0의 음의 로그우도를 달성하여 이전 모델을 능가한다.
Omniglot 데이터셋에서 모델은 RBM 사전분포에서 분명하고 잘 분리된 모드를 학습하며, 100단계의 길고 일관된 깁스 샘플링을 통해 일관된 숫자 유형의 생성을 보였다.
Caltech-101 실루엣에서 모델은 클래스 레이블 없이도 큰 볼록형 모양에 대응하는 분리된 모드를 식별했다.
모델은 RBM 사전분포에서의 영구적 깁스 샘플링을 통해 안정적이고 다중 모드 구조를 드러내어, 이산 잠재 공간이 의미 있는 객체 클래스를 잘 포착하고 있음을 보여주었다.
계층적인 사후 근사 모델은 특히 이산 변수 간의 복잡한 의존성을 모델링할 때, 인라인 모델보다 ELBO의 엄밀함을 크게 향상시켰다.
이 방법은 이산 잠재 변수를 가진 모델의 종단 간(end-to-end) 훈련을 역전파를 통해 가능하게 하여, 이산 분포에 대한 변분 추론에서 오랜 한계를 극복했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.