[논문 리뷰] Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images
이 논문은 매우 깊은 계층적 VAE를 도입하며, 이전 깊이를 넘긴 경우 PixelCNN 기반 자회귀 모델보다 CIFAR-10, ImageNet 변형, FFHQ에서 고차원 이미지에 대해 로그 가능도에서 더 우수하고, 매개변수 수가 적고 샘플링 속도가 빨라진다.
We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.
연구 동기 및 목표
- VAEs가 깊게 스택된 잠재 변수들을 사용할 때 자연 이미지에 대해 자회귀 모델과 맞먹거나 능가할 수 있는지 여부를 평가한다.
- 매우 깊은 계층형 VAE 아키텍처를 제시하고 다수의 확률 계층까지 확장할 수 있음을 검증한다.
- CIFAR-10, ImageNet(32/64), FFHQ 변형에 대해 로그 가능도와 PixelCNN/PixelCNN++ 기반 기준선과의 효율성을 경험적으로 비교한다.
- 깊이가 효율적인 계층적 표현과 병렬 생성(병렬화된 샘플링)을 가능하게 하여 샘플링 속도를 높이는지 보여준다.
제안 방법
- 상향식-전방 요인화(prior 및 posterior)의 N-레이어 VAE를 p(z)=p(z0)p(z1|z0)…; q(z|x)=q(z0|x)q(z1|z0,x)…로 형식화한다.
- N이 데이터 차원과 같아질 때 N-레이어 VAE가 자회귀 모델을 일반화하며 N차원 잠재 밀도를 보편적으로 근사할 수 있음을 주장하고 증명한다.
- 깊은 학습을 안정시키기 위해 병목 잔차 블록, 대각 가우시안 사전/포스트eriors, 그리고 깊은 학습을 안정시키는 잔차 스케일링(1/√N)을 갖는 매우 깊은 VAE 아키텍처를 도입한다.
- 역포개(unpooling)를 위해 최근접 이웃 보간을 사용하여 포스트erior 붕괴를 피하고 KL 웜업/무료 비트 요구사항을 제거한다.
- 깊은 학습에서의 불안정한 업데이트를 피하기 위한 그래디언트 건너뛰기 heuristic로 학습을 안정화한다.
- CIFAR-10, ImageNet-32, ImageNet-64, FFHQ-256, FFHQ-1024에서 학습 및 평가하고 로그 가능도를 자회귀 기준선과 비교한다.
실험 결과
연구 질문
- RQ1충분히 깊은 VAE가 이미지 로그 가능도에서 자회귀 모델과 맞먹거나 능가할 수 있는가?
- RQ2총 매개변수 수에 의존하지 않고 잠재 계층의 깊이(확률적 심도)를 늘리는 것이 VAE 성능을 개선하는가?
- RQ3매우 깊은 VAE가 병렬 생성이 가능한 효율적인 계층적 표현을 학습하여 샘플링을 더 빠르게 만드는가?
- RQ4PixelCNN 기반 모델과 비교했을 때 매우 깊은 VAE가 고해상도 이미지에 어떻게 확장되는가?
주요 결과
- 매우 깊은 VAE가 CIFAR-10, ImageNet-32, ImageNet-64, FFHQ-256, FFHQ-1024에서 PixelCNN 기반 모델보다 더 높은 로그 가능도를 달성한다.
- 깊이가 모델 용량과 무관하게 개선되며, 더 깊은 모델이 비슷한 매개변수 수를 가진 얕은 모델보다 성능이 우수하다.
- 매우 깊은 VAE는 효율적인 계층적 표현을 학습하여 고해상도에서 많은 잠재 변수를 병렬로 생성할 수 있게 한다.
- PixelCNN 기반 자회귀 모델에 비해 Very Deep VAE는 더 적은 매개변수로 더 빠른 샘플링이 가능하고 더 큰 이미지로도 확장한다.
- 아키텍처는 1024x1024 이미지에도 잘 확장되며 자회귀 대비 빠른 샘플링(단일 순전파) 특징을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.