QUICK REVIEW

[논문 리뷰] VAEBM: A Symbiosis between Variational Autoencoders and Energy-based Models

Zhisheng Xiao, Karsten Kreis|arXiv (Cornell University)|2020. 10. 01.

Generative Adversarial Networks and Image Synthesis참고 문헌 84인용 수 36

한 줄 요약

VAEBM은 데이터 공간에서 VAE 생성기와 에너지 기반 모델을 결합하여 두 단계로 학습하면 고품질 이미지 생성과 빠른 샘플링 및 우수한 모드 커버리지를 달성합니다.

ABSTRACT

Energy-based models (EBMs) have recently been successful in representing complex distributions of small images. However, sampling from them requires expensive Markov chain Monte Carlo (MCMC) iterations that mix slowly in high dimensional pixel space. Unlike EBMs, variational autoencoders (VAEs) generate samples quickly and are equipped with a latent space that enables fast traversal of the data manifold. However, VAEs tend to assign high probability density to regions in data space outside the actual data distribution and often fail at generating sharp images. In this paper, we propose VAEBM, a symbiotic composition of a VAE and an EBM that offers the best of both worlds. VAEBM captures the overall mode structure of the data distribution using a state-of-the-art VAE and it relies on its EBM component to explicitly exclude non-data-like regions from the model and refine the image samples. Moreover, the VAE component in VAEBM allows us to speed up MCMC updates by reparameterizing them in the VAE's latent space. Our experimental results show that VAEBM outperforms state-of-the-art VAEs and EBMs in generative quality on several benchmark image datasets by a large margin. It can generate high-quality images as large as 256$\ imes$256 pixels with short MCMC chains. We also demonstrate that VAEBM provides complete mode coverage and performs well in out-of-distribution detection. The source code is available at https://github.com/NVlabs/VAEBM

연구 동기 및 목표

VAE와 EBM의 결합을 보완적 강점을 활용하기 위해 추진한다.
VAE로 데이터 분포의 모드 구조를 포착하고, EBM을 사용해 세부 정보를 다듬고 데이터가 아닌 영역을 제외한다.
VAE 잠재 공간에서 MCMC를 재매개변수화하여 더 빠른 샘플링을 가능하게 한다.
실용성과 안정성을 위해 두 단계로 분리된 학습 절차를 제공한다.
여러 이미지 벤치마크에서 향상된 생성 품질과 모드 커버리지를 보여준다.

제안 방법

생성 모델을 h_{ψ,θ}(x,z) = (1/Z_{ψ,θ}) p_{θ}(x,z) e^{-E_{ψ}(x)}로 정의하는데, 여기서 p_{θ}(x,z)는 VAE 생성기이고 E_{ψ}(x)는 픽셀 공간의 에너지 함수이다.
마지널 로그 우도 최대화로 학습하되 L_VAE 및 L_EBM 항으로 분해되어 두 단계 최적화를 가능하게 한다(먼저 VAE를 학습하고 θ를 고정한 뒤 EBM ψ를 학습).
샘플링에서 결합 공간 (x,z) 및 보강 공간 ε = (ε_x, ε_z)에서 샘플링하도록 재매개변수화를 사용하여 샘플링의 랑게빈 동역학을 효율화한다.
음의 위상에서 재매개변수화된 샘플링으로 결합 공간 (z,x)에서 MCMC를 수행하여 혼합 속도를 높인다.
잠재 공간에서 MCMC를 수행하고 보강 모델을 통해 데이터 공간과 함께 샘플링하는 방식으로 샘플링 속도가 가속될 수 있음을 입증한다.

실험 결과

연구 질문

RQ1VAE와 EBM의 통합이 순수 VAE나 순수 EBM 접근법보다 샘플 품질을 향상시키는가?
RQ2두 단계 학습(먼저 VAE, 그다음 EBM)이 VAEBM에서 안정적 최적화와 실용적 샘플링을 보장하는가?
RQ3VAEBM이 이미지 데이터셋에서 완전한 모드 커버리지와 강력한 이상 탐지(out-of-distribution) 탐지를 달성하는가?
RQ4표준 벤치마크에서 VAEBM이 최첨단 가능도 기반 모델 및 GAN/스코어 기반 모델과 어떻게 비교되는가?

주요 결과

VAEBM은 CIFAR-10 및 다른 벤치마크에서 가능도 기반 평가 하에 기존의 EBM 및 최첨단 VAE를 능가한다.
사전 학습된 VAE에서 초기화된 짧은 MCMC 체인은 더 빠른 샘플링으로 고품질 샘플을 생성한다.
VAE 기반의 가능도 학습 이점을 유지하면서 GAN 및 스코어 기반 모델에 비해 경쟁력 있거나 우수한 결과를 달성한다.
모델은 완전한 모드 커버리지와 강력한 이상 탐지(AUROC가 여러 기준선보다 높음)를 보여준다.
CelebA 64, CelebA HQ 256, 및 LSUN Church 64에서 VAEBM은 NVAE 및 관련 벤치마크에 비해 상당한 개선을 보인다(FID 점수).
2D 토이 실험(25가우시안)에서 VAEBM은 VAE 가능도를 개선하고 실제 분포에 더 잘 맞춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.