QUICK REVIEW

[논문 리뷰] DVAE++: Discrete Variational Autoencoders with Overlapping Transformations

Arash Vahdat, William G. Macready|arXiv (Cornell University)|2018. 02. 14.

Generative Adversarial Networks and Image Synthesis참고 문헌 39인용 수 25

한 줄 요약

DVAE++는 이산 변분 오토에인코드러에 대해 겹치는 스무딩 변환을 도입하여, 분석적 변분 경계를 통해 글로벌 볼츠만 기계 사전 분포를 효율적으로 학습할 수 있도록 한다. 이 방법은 이산 글로벌 잠복 변수와 계층적인 연속 국소 변수를 결합함으로써 이진화된 이미지 데이터셋에서 최신 기준(log-likelihood) 성능을 달성하며, Gumbel-Softmax 및 이전의 이산 VAE보다 뛰어난 성능을 보인다.

ABSTRACT

Training of discrete latent variable models remains challenging because passing gradient information through discrete units is difficult. We propose a new class of smoothing transformations based on a mixture of two overlapping distributions, and show that the proposed transformation can be used for training binary latent models with either directed or undirected priors. We derive a new variational bound to efficiently train with Boltzmann machine priors. Using this bound, we develop DVAE++, a generative model with a global discrete prior and a hierarchy of convolutional continuous variables. Experiments on several benchmarks show that overlapping transformations outperform other recent continuous relaxations of discrete latent variables including Gumbel-Softmax (Maddison et al., 2016; Jang et al., 2016), and discrete variational autoencoders (Rolfe 2016).

연구 동기 및 목표

비가역적인 이산 단위로 인해 이산 잠복 변수 모델을 학습하는 데 발생하는 과제를 해결하기 위해.
지향적이고 비지향적 사전 분포(예: 볼츠만 기계 포함)를 모두 지원하는 연속적 근사 방법을 개발하기 위해.
이전 연구에서 복잡한 기울기 처리가 필요로 했던, RBM 사전 분포를 위한 분석적 변분 경계를 유도하기 위해.
이미지의 글로벌 이산 요인과 국소 연속적 특징을 동시에 모델링할 수 있는 계층적 VAE 아키텍처(DVAE++)를 설계하기 위해.
오직 이진 글로벌 잠복 변수만을 사용하여 기준 데이터셋에서 최신 기준 생성 성능을 입증하기 위해.

제안 방법

공통된 지지 영역을 가진 두 분포의 혼합을 기반으로 하는 새로운 스무딩 변환 클래스를 제안한다.
지수 또는 로지스틱 혼합 성분을 사용하여 베르누이 변수의 연속적 근사를 정의한다.
볼츠만 기계 사전 분포를 가진 모델의 엔드 투 엔드 학습을 가능하게 하는 새로운 변분 경계를 유도한다.
글로벌 RBM 사전 분포와 컨볼루션 기반 연속 국소 잠복 변수를 가진 계층적 VAE인 DVAE++를 도입한다.
로그-likelihood 평가를 위해 무조건적 디코더와 중요도 가중 추정을 사용한다.
글로벌 잠복 변수를 위한 1–4층의 계층적 인퍼런스 네트워크와, 공간적 위치당 16층의 32개 연속 변수를 갖는다.

실험 결과

연구 질문

RQ1겹치는 스무딩 변환은 지향적 및 비지향적 사전 분포 모델 모두에서 이산 잠복 변수를 통해 효과적인 백프로파게이션을 가능하게 하는가?
RQ2제안된 RBM 사전 분포를 위한 분석적 변분 경계는 이전 연구에서 요구했던 특수한 기울기 처리가 필요 없음을 보여주는가?
RQ3글로벌 이산 사전 분포와 국소 연속 잠복 변수를 가진 VAE는 표준 이미지 벤치마크에서 최신 기준 로그-likelihood 성능을 달성할 수 있는가?
RQ4DVAE++의 성능은 로그-likelihood 및 분리 가능성 측면에서 Gumbel-Softmax 및 기타 이산 VAE와 비교해 어떻게 되는가?
RQ5국소 연속 잠복 변수를 제거했을 때 글로벌 이산 사전 분포의 기여도는 어떠한가?

주요 결과

무조건적 디코더를 사용하여 정적 이진화 MNIST에서 DVAE++는 테스트 세트 로그-likelihood -79.72를 달성했고, 동적 이진화 MNIST에서는 -79.55를 기록했다.
CIFAR10에서는 조건부 디코더를 사용하여 DVAE++가 로그-likelihood -79.90를 달성했으며, 이는 이전의 이산 VAE를 능가하는 성능이다.
모든 연속 국소 잠복 변수를 제거한 경우에도 DVAE++는 거의 최신 기준 수준의 로그-likelihood를 달성하여 글로벌 RBM 사전 분포의 강력함을 입증한다.
RBM 사전 분포와 지수 혼합 성분을 사용한 모델은 Rolfe(2016)의 방법으로 학습한 동일한 아키텍처보다 성능이 뛰어나며, 이는 복잡한 기울기 처리가 필요로 하지 않는다는 것을 시사한다.
DVAE++에서 생성된 샘플들은 글로벌 이산 잠복 변수가 숫자 클래스나 장면 구성과 같은 의미적으로 유의미한 요소를 포착하고 있음을 보여준다.
분석적 변분 경계는 제어 변수나 특수한 기울기 처리 없이도 효율적인 최적화를 가능하게 하여 학습을 단순화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.