QUICK REVIEW

[논문 리뷰] Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images

Rewon Child|arXiv (Cornell University)|2020. 11. 20.

Generative Adversarial Networks and Image Synthesis참고 문헌 36인용 수 45

한 줄 요약

논문은 매우 깊은 계층형 VAE가 이미지 로그 가능도에서 자동회귀 PixelCNN보다 더 나은 성능을 보이면서 더 적은 매개변수로 빠른 샘플링을 가능하게 하는 효율적인 계층적 표현을 학습함을 보여준다.

ABSTRACT

We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.

연구 동기 및 목표

VAEs가 이미지 밀도 추정에서 자동회귀 모델과 대등하거나 이를 능가할 수 있는지 평가하는 것을 동기로 삼는다.
이전 연구를 넘는 깊이를 확장하는 매우 깊은 계층형 VAE를 제안한다.
깊이가 더 나은 자동회귀 가능 표현으로 이어진다는 것을 이론적으로 정당화한다.
CIFAR-10, ImageNet(32/64), FFHQ-256, FFHQ-1024에서 매우 깊은 VAE와 PixelCNN 기반 모델을 경험적으로 비교한다.

제안 방법

다중 확률적 계층과 대각 Gaussian 사전/사후 분포를 갖는 탑-다운 방식의 매우 깊은 계층형 VAE를 도입한다.
약 70개 층까지 학습 안정을 위해 잔여 스케일링이 적용된 ResNet 기반 병목 블록 설계를 사용한다.
포스트리어 분포 붕괴와 KL 워밍업을 피하기 위해 업풀링 연산에 최근접 이웃 보간을 사용한다.
N-층 VAE가 자동회귀 모델을 일반화하고 N차원 잠재 밀도를 균일하게 근사할 수 있음을 보이는 이론적 명제를 제공한다.
여러 이미지 벤치마크에서 학습하고 로그 가능도, 매개변수 수, 샘플링 속도를 자동회귀 PixelCNN 기반 모델과 비교한다.

실험 결과

연구 질문

RQ1충분히 깊은 잠재 계층 구조를 가진 VAE가 자연 이미지에서 로그 가능도 면에서 자동회귀 모델과 비슷해지거나 이를 능가할 수 있는가?
RQ2깊이가 VAE에서 더 나은 잠재 표현과 더 빠르고 병렬화 가능한 생성을 촉진하는가?
RQ3표준 이미지 벤치마크에서 가능도, 매개변수, 샘플링 속도 측면에서 매우 깊은 VAE가 PixelCNN 기반 모델에 비해 어떤 성능을 보이는가?
RQ4극도로 깊은 VAE의 안정적인 학습을 posterior collapse 없이 가능하게 하는 설계 선택은 무엇인가?
RQ5매우 깊은 VAE가 실제 샘플링 시간으로 고해상도 이미지(예: FFHQ-1024)에 확장 가능한가?

주요 결과

모델 유형	매개변수	깊이	샘플링	NLL
PixelCNN++ (Salimans et al., 2017)	53M ∗	(empty)	D	2.92
PixelSNAIL (Chen et al., 2017)	(empty)	(empty)	D	2.85
Sparse Transformer (Child et al., 2019)	59M	(empty)	D	2.80
VLAE (Chen et al., 2016)	(empty)	(empty)	D	≤2.95
IAF-VAE (Kingma et al., 2016)	(empty)	12	D	≤3.11
Flow++ (Ho et al., 2019)	31M	1	D	≤3.08
BIVA (Maaløe et al., 2019)	103M	15	1	≤3.08
NVAE (Vahdat & Kautz, 2020)	131M	30	1	≤2.91
Very Deep VAE (ours)	39M	45	1	≤2.87
Gated PixelCNN (ImageNet-32)	177M ∗	10	D	3.83
Image Transformer (Parmar et al., 2018)	(empty)	(empty)	D	3.77
BIVA (ImageNet-32)	103M ∗	15	1	≤3.96
NVAE (ImageNet-32)	268M	28	1	≤3.92
Flow++ (ImageNet-32)	169M	(empty)	1	≤3.86
Very Deep VAE (ImageNet-32)	119M	78	1	≤3.80
Gated PixelCNN (ImageNet-64)	177M ∗	(empty)	D	3.57
SPN (Menick & Kalchbrenner, 2018)	150M	(empty)	(empty)	3.52
Sparse Transformer (ImageNet-64)	152M	(empty)	(empty)	3.44
Glow (Kingma & Dhariwal, 2018)	(empty)	(empty)	1	3.81
Flow++ (ImageNet-64)	73M	(empty)	1	≤3.69
Very Deep VAE (ImageNet-64)	125M	75	1	≤3.52
FFHQ-256 (5 bit) NVAE	36	1	≤0.68
FFHQ-256 (5 bit) Very Deep VAE	115M	62	1	≤0.61
FFHQ-1024 (8 bit) Very Deep VAE	115M	72	1	≤2.42

깊이는 전체 용량과 무관하게 로그 가능도를 향상시키고, 시범 벤치마크 전반에서 VAE가 PixelCNN보다 더 나은 성능을 발휘하도록 한다.
매우 깊은 VAE는 PixelCNN 기반 모델보다 매개변수가 적으면서 샘플링 속도가 더 빠르다(샘플당 단일 순전파).
더 큰 확률적 깊이로 학습된 모델은 매개변수 수가 비슷하거나 더 낮게 유지되더라도 우수한 성능을 보인다.
정성적 분석은 모델이 낮은 해상도에서 글로벌 구조를 포착하고 높은 해상도에서 로컬 텍스처를 포착하는 효율적인 계층적 표현을 학습하며, 계층 간 병렬 생성을 가능하게 한다는 것을 보여준다.
매우 깊은 VAE가 고해상도 데이터로 확장되며 fast sampling과 경쟁력 있는 가능도를 유지한다(예: FFHQ-1024, 72층, 2.42 NLL).
ImageNet-32/64에서 매우 깊은 VAE는 많은 자동회귀 기준보다 현저히 적은 매개변수로 최첨단 또는 경쟁력 있는 로그 가능도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.