QUICK REVIEW

[논문 리뷰] BIVA: A Very Deep Hierarchy of Latent Variables for Generative Modeling

Lars Maaløe, M. Fraccaro|arXiv (Cornell University)|2019. 02. 06.

Generative Adversarial Networks and Image Synthesis참고 문헌 60인용 수 71

한 줄 요약

BIVA는 양방향 추론 네트워크와 결정적 하향 경로를 갖춘 매우 깊은 확률 잠재 변수 계층 구조를 도입하여 강한 가능도, 선명한 이미지 생성, 이상 탐지, 그리고 반지도 학습을 달성합니다.

ABSTRACT

With the introduction of the variational autoencoder (VAE), probabilistic latent variable models have received renewed attention as powerful generative models. However, their performance in terms of test likelihood and quality of generated samples has been surpassed by autoregressive models without stochastic units. Furthermore, flow-based models have recently been shown to be an attractive alternative that scales well to high-dimensional data. In this paper we close the performance gap by constructing VAE models that can effectively utilize a deep hierarchy of stochastic variables and model complex covariance structures. We introduce the Bidirectional-Inference Variational Autoencoder (BIVA), characterized by a skip-connected generative model and an inference network formed by a bidirectional stochastic inference path. We show that BIVA reaches state-of-the-art test likelihoods, generates sharp and coherent natural images, and uses the hierarchy of latent variables to capture different aspects of the data distribution. We observe that BIVA, in contrast to recent results, can be used for anomaly detection. We attribute this to the hierarchy of latent variables which is able to extract high-level semantic features. Finally, we extend BIVA to semi-supervised classification tasks and show that it performs comparably to state-of-the-art results by generative adversarial networks.

연구 동기 및 목표

확률적 잠재 변수 모델과 자기회귀/플로우 기반 모델 간의 테스트 가능도 및 샘플 품질 측면의 성능 격차를 동기부여하고 좁힌다.
깊은 계층의 확률 잠재 변수, 양방향 추론 경로, 그리고 결정적 하향 경로를 갖춘 새로운 VAE 변형—BIVA—를 제안한다.
절멸 연구를 통해 이 아키텍처의 이점을 입증하고, 자연 이미지와 이진 이미지에서의 평가, 이상 탐지 및 반지도 분류를 평가한다.
BIVA가 잠재 계층 구조에서 학습된 고수준 의미 특징을 활용하여 이상 탐지를 수행할 수 있음을 보인다.

제안 방법

각 층의 잠재 변수가 하향-상향 구성요소로 나뉘는 깊은 계층형 VAE를 도입한다 (z_i = (z_i_BU, z_i_TD)).
정보 흐름을 개선하고 잠재 변수 붕괴를 줄이기 위해 결정적 하향(top-down) 경로를 추가하고 스킵 연결을 제공한다.
생성 모델과 매개변수를 공유하는 하향 확률 경로와 상향 확률 경로를 갖는 양방향 추론 네트워크를 사용하여 유연한 사후분포 q_phi(z|x)를 형성한다.
각 레벨에서 잠재 변수를 인자로 분해하여 하향 확률 추론을 가능하게 하고 보조 변수 없이 상위 계층의 공분산 학습을 가능하게 한다.
재매개화(reparameterization)를 사용하여 ELBO를 최대화하는 방식으로 학습하고, 초기 잠재 변수 붕괴를 완화하기 위한 free-bits 전략의 도움을 받는다; 이상 탐지의 경우, 변분 후방에서 상위 레이어를 샘플링하고 조건부 사전에서 하위 레이어를 샘플링하는 위계적 하한 L^{>k}를 사용한다.
모델의 이상 탐지에의 적용 가능성과 z 및 y가 주어졌을 때 x의 조건부를 포함한 클래스 변수 y를 도입하여 반지도 확장을 설명한다.

실험 결과

연구 질문

RQ1BIVA는 표준 벤치마크에서 자기회귀 및 플로우 기반 모델보다 테스트 로그가능도와 샘플 품질을 개선하는가?
RQ2BIVA의 잠재 변수 계층 구조가 이상 탐지에 유용한 고수준 의미 특징을 포착하는가?
RQ3양방향 추론 경로와 결정적 하향 연결이 잠재 변수 붕괴를 피하는 데 어떤 기여를 하는가?
RQ4BIVA를 반지도 분류로 확장하여 경쟁력 있는 성능을 낼 수 있는가?
RQ5L-레벨 깊이 계층 구조와 BU/TD 분해가 학습 표현 및 다운스트림 작업에 어떤 영향을 미치는가?

주요 결과

BIVA는 여러 벤치마크에서 최첨단 또는 경쟁력 있는 테스트 가능도에 도달하거나 비자 autoregressive 잠재 변수 모델을 능가하고 일부 설정에서 자기회귀 모델에 근접합니다.
이진 MNIST 작업에서 BIVA는 L1 및 L1e3 설정으로 강한 로그 가능도를 달성하며 파인튜닝은 이전 잠재 변수 방법에 비해 추가 개선을 보입니다.
자연 이미지를 다룰 때 L=15(및 L=20까지의 변형)인 BIVA는 CIFAR-10에서 경쟁력 있는 비트/차원을 제공하고, 많은 플로우 기반 및 비자 autoregressive 모델을 능가하지만 일부 경우에는 자기회귀 모델이 여전히 우세합니다.
고수준 잠재 변수를 사용하는 위계 기반 이상 탐지 접근법(L^{>k})은 표준 ELBO 기반 방법보다 분포 내 데이터와 분포 간 데이터의 구분이 더 잘 되며, 모델이 고수준 의미를 인코딩할 수 있음을 시사합니다.
클래스 변수 y를 포함한 반지도 확장은 MNIST에서 경쟁력 있는 분류 성능을 보여 주류 GAN 기반 접근법과 유사한 수준입니다.
CelebA에서 BIVA 사전(N(0, I))으로 생성된 질적 샘플은 선명하고 일관되어 이전 잠재 변수 모델에 비해 향상된 생성 품질을 나타냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.