Skip to main content
QUICK REVIEW

[논문 리뷰] DVAE++: Discrete Variational Autoencoders with Overlapping Transformations

Arash Vahdat, William G. Macready|arXiv (Cornell University)|2018. 02. 14.
Generative Adversarial Networks and Image Synthesis참고 문헌 39인용 수 25
한 줄 요약

DVAE++는 이산 변분 오토에인코드러에 대해 겹치는 스무딩 변환을 도입하여, 분석적 변분 경계를 통해 글로벌 볼츠만 기계 사전 분포를 효율적으로 학습할 수 있도록 한다. 이 방법은 이산 글로벌 잠복 변수와 계층적인 연속 국소 변수를 결합함으로써 이진화된 이미지 데이터셋에서 최신 기준(log-likelihood) 성능을 달성하며, Gumbel-Softmax 및 이전의 이산 VAE보다 뛰어난 성능을 보인다.

ABSTRACT

Training of discrete latent variable models remains challenging because passing gradient information through discrete units is difficult. We propose a new class of smoothing transformations based on a mixture of two overlapping distributions, and show that the proposed transformation can be used for training binary latent models with either directed or undirected priors. We derive a new variational bound to efficiently train with Boltzmann machine priors. Using this bound, we develop DVAE++, a generative model with a global discrete prior and a hierarchy of convolutional continuous variables. Experiments on several benchmarks show that overlapping transformations outperform other recent continuous relaxations of discrete latent variables including Gumbel-Softmax (Maddison et al., 2016; Jang et al., 2016), and discrete variational autoencoders (Rolfe 2016).

연구 동기 및 목표

  • 비가역적인 이산 단위로 인해 이산 잠복 변수 모델을 학습하는 데 발생하는 과제를 해결하기 위해.
  • 지향적이고 비지향적 사전 분포(예: 볼츠만 기계 포함)를 모두 지원하는 연속적 근사 방법을 개발하기 위해.
  • 이전 연구에서 복잡한 기울기 처리가 필요로 했던, RBM 사전 분포를 위한 분석적 변분 경계를 유도하기 위해.
  • 이미지의 글로벌 이산 요인과 국소 연속적 특징을 동시에 모델링할 수 있는 계층적 VAE 아키텍처(DVAE++)를 설계하기 위해.
  • 오직 이진 글로벌 잠복 변수만을 사용하여 기준 데이터셋에서 최신 기준 생성 성능을 입증하기 위해.

제안 방법

  • 공통된 지지 영역을 가진 두 분포의 혼합을 기반으로 하는 새로운 스무딩 변환 클래스를 제안한다.
  • 지수 또는 로지스틱 혼합 성분을 사용하여 베르누이 변수의 연속적 근사를 정의한다.
  • 볼츠만 기계 사전 분포를 가진 모델의 엔드 투 엔드 학습을 가능하게 하는 새로운 변분 경계를 유도한다.
  • 글로벌 RBM 사전 분포와 컨볼루션 기반 연속 국소 잠복 변수를 가진 계층적 VAE인 DVAE++를 도입한다.
  • 로그-likelihood 평가를 위해 무조건적 디코더와 중요도 가중 추정을 사용한다.
  • 글로벌 잠복 변수를 위한 1–4층의 계층적 인퍼런스 네트워크와, 공간적 위치당 16층의 32개 연속 변수를 갖는다.

실험 결과

연구 질문

  • RQ1겹치는 스무딩 변환은 지향적 및 비지향적 사전 분포 모델 모두에서 이산 잠복 변수를 통해 효과적인 백프로파게이션을 가능하게 하는가?
  • RQ2제안된 RBM 사전 분포를 위한 분석적 변분 경계는 이전 연구에서 요구했던 특수한 기울기 처리가 필요 없음을 보여주는가?
  • RQ3글로벌 이산 사전 분포와 국소 연속 잠복 변수를 가진 VAE는 표준 이미지 벤치마크에서 최신 기준 로그-likelihood 성능을 달성할 수 있는가?
  • RQ4DVAE++의 성능은 로그-likelihood 및 분리 가능성 측면에서 Gumbel-Softmax 및 기타 이산 VAE와 비교해 어떻게 되는가?
  • RQ5국소 연속 잠복 변수를 제거했을 때 글로벌 이산 사전 분포의 기여도는 어떠한가?

주요 결과

  • 무조건적 디코더를 사용하여 정적 이진화 MNIST에서 DVAE++는 테스트 세트 로그-likelihood -79.72를 달성했고, 동적 이진화 MNIST에서는 -79.55를 기록했다.
  • CIFAR10에서는 조건부 디코더를 사용하여 DVAE++가 로그-likelihood -79.90를 달성했으며, 이는 이전의 이산 VAE를 능가하는 성능이다.
  • 모든 연속 국소 잠복 변수를 제거한 경우에도 DVAE++는 거의 최신 기준 수준의 로그-likelihood를 달성하여 글로벌 RBM 사전 분포의 강력함을 입증한다.
  • RBM 사전 분포와 지수 혼합 성분을 사용한 모델은 Rolfe(2016)의 방법으로 학습한 동일한 아키텍처보다 성능이 뛰어나며, 이는 복잡한 기울기 처리가 필요로 하지 않는다는 것을 시사한다.
  • DVAE++에서 생성된 샘플들은 글로벌 이산 잠복 변수가 숫자 클래스나 장면 구성과 같은 의미적으로 유의미한 요소를 포착하고 있음을 보여준다.
  • 분석적 변분 경계는 제어 변수나 특수한 기울기 처리 없이도 효율적인 최적화를 가능하게 하여 학습을 단순화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.