QUICK REVIEW

[논문 리뷰] Tutorial on Variational Autoencoders

Carl Doersch|arXiv (Cornell University)|2016. 06. 19.

Generative Adversarial Networks and Image Synthesis참고 문헌 25인용 수 1,372

한 줄 요약

이 튜토리얼은 변분 오토인코더(VAE)를 소개하고, 변분 베이즈를 통해 목표를 도출하며, 학습을 위한 재매개화 트릭을 설명하고, 하나의-다 매핑을 위한 조건부 VAE(CVAE)로 확장하며 MNIST 데모를 제시합니다.

ABSTRACT

In just three years, Variational Autoencoders (VAEs) have emerged as one of the most popular approaches to unsupervised learning of complicated distributions. VAEs are appealing because they are built on top of standard function approximators (neural networks), and can be trained with stochastic gradient descent. VAEs have already shown promise in generating many kinds of complicated data, including handwritten digits, faces, house numbers, CIFAR images, physical models of scenes, segmentation, and predicting the future from static images. This tutorial introduces the intuitions behind VAEs, explains the mathematics behind them, and describes some empirical behavior. No prior knowledge of variational Bayesian methods is assumed.

연구 동기 및 목표

생성 모델링과 복잡한 분포의 비지도 학습에 대한 동기를 부여한다.
VAE가 잠재 변수를 사용하여 데이터 구조를 수작업으로 만든 특징 없이 포착하는 방법을 설명한다.
재구성과 정규화를 결합한 계산 가능한 학습 목표를 제시한다.
그라디언트 기반 최적화를 가능하게 하는 재매개화 트릭을 도입한다.

제안 방법

잠재 변수 z에 대한 적분으로 P(X)를 정의하고 가우시안 우도와 함께 P(X|z)를 도입한다.
계산 불가능한 P(z|X)를 근사하기 위해 Q(z|X)를 도입하고 증거 하한(Evidence Lower Bound, ELBO)을 도출한다.
ELBO가 재구성 항과 KL-발산 정규화항으로 분해되는 것을 보인다.
재매개화 트릭을 사용하여 확률적 샘플링을 통해 역전파를 가능하게 한다: z = μ(X) + Σ^{1/2}(X) ε 여기서 ε ~ N(0,I).
대각 행렬 Σ를 갖는 가우시안 Q(z|X)를 채택하고 KL 항을 닫힌 형식으로 계산한다.
입력 X를 조건으로 하여 P(Y|X)를 모델링하는 조건부 VAE(CVAE)로 확장한다.
인코더 없이 z ~ N(0,I) 샘플링과 디코딩으로 테스트 시 샘플링을 시연한다.

실험 결과

연구 질문

RQ1명시적 후사분포 계산을 요구하지 않고 잠재 변수를 갖는 생성 모델을 어떻게 학습시킬 수 있는가?
RQ2데이터 우도(likelihood)를 근사하는 계산 가능한 목표를 어떻게 계산하고 최적화할 수 있는가?
RQ3재매개화 트릭이 VAE에서 그래디언트 기반 학습을 어떻게 가능하게 하는가?
RQ4VAE를 조건부, 다대일 매핑(CVAE)으로 확장하는 방법은 무엇인가?

주요 결과

VAE는 데이터 우도의 계산 가능한 하한을 최대화하여 재구성 품질과 잠재 변수 정규화를 균형 있게 달성한다.
재매개화 트릭은 확률적 잠재 변수에 대한 역전파를 가능하게 하여 SGD를 통한 학습을 실현 가능하게 한다.
P(z)에 대한 닫힌 형태의 KL을 갖는 가우시안 근사 후사(Q(z|X))는 계산 가능한 목표를 제공한다.
이 프레임워크는 자연스럽게 최소 설명 길이(MDL) 및 정보 이론적 해석과 연결된다.
CVAEs는 조건부 생성으로 VAEs를 확장하여 주어진 입력 X에 대해 다중 모드 출력이 가능하도록 한다.
테스트 시 z ~ N(0,I)에서 샘플링하고 디코딩하면 인코더를 사용하지 않고도 새로운 데이터를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.