QUICK REVIEW

[논문 리뷰] Generating Diverse High-Fidelity Images with VQ-VAE-2

Ali Razavi, Aäron van den Oord|arXiv (Cornell University)|2019. 06. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 106

한 줄 요약

두 단계 계층: VQ-VAE로 이산 잠재 코드를 학습한 뒤, 강력한 자기회전(prior)인 PixelCNN을 사용하여 이를 모델링하고 큰 스케일에서 고충실도이고 다양한 이미지를 생성합니다.

ABSTRACT

We explore the use of Vector Quantized Variational AutoEncoder (VQ-VAE) models for large scale image generation. To this end, we scale and enhance the autoregressive priors used in VQ-VAE to generate synthetic samples of much higher coherence and fidelity than possible before. We use simple feed-forward encoder and decoder networks, making our model an attractive candidate for applications where the encoding and/or decoding speed is critical. Additionally, VQ-VAE requires sampling an autoregressive model only in the compressed latent space, which is an order of magnitude faster than sampling in the pixel space, especially for large images. We demonstrate that a multi-scale hierarchical organization of VQ-VAE, augmented with powerful priors over the latent codes, is able to generate samples with quality that rivals that of state of the art Generative Adversarial Networks on multifaceted datasets such as ImageNet, while not suffering from GAN's known shortcomings such as mode collapse and lack of diversity.

연구 동기 및 목표

고품질과 다양성에서 GAN에 필적하는 고해상도 이미지 생성을 위한 가능하고 확장 가능한 우도 기반 접근법을 동기 부여하고 시연한다.
이미지들을 이산 잠재 표현으로 압축하여 잠재 공간에서의 효율적인 자기회귀 모델링을 가능하게 하는 계층적 VQ-VAE를 활용한다.
큰 이미지에 대해 픽셀 공간 샘플링보다 잠재 공간 샘플링이 훨씬 더 빠르다는 것을 보여준다.

제안 방법

256x256 이미지를 하단 64x64, 상단 32x32의 이산 잠재로 인코딩하기 위해 2단계 계층적 VQ-VAE를 학습한다.
공유 코드북으로 인코더 출력을 양자화하고 코드북 및 약속(commitment) 항을 포함한 VQ-VAE 손실로 최적화하며 지수이동평균을 사용해 코드북을 업데이트한다.
자기회강한 PixelCNN으로 이산 잠재에 대한 강력한 자기회귀 우선(priors)을 맞춘다: 32x32 잠재에 대한 상위 수준 우선(전역 구조)과 64x64 잠재에 대한 하위 수준 우선(로컬 세부사항)을 상위 잠재에 조건화하여 학습한다.
상위 수준에서 다중 헤드 자기회전을 사용하고 하위 수준에서 긴 거리 의존성과 로컬 의존성을 포착하기 위해 큰 컨디셔닝 스택을 사용하여 클래스 레이블에 조건화를 부여한다.
다양성과 샘플 품질의 균형을 맞추기 위해 분류기 기반 거부 샘플링을 수행한다(사전 학습된 ImageNet 분류기를 사용해 평가).
NLL 및 재구성 오차, 정밀도/재현율 트레이드오프, CAS, FID/IS 지표를 사용해 평가하고 BigGAN-deep 및 재구성과 비교한다."

실험 결과

연구 질문

RQ1계층적 VQ-VAE와 자기회귀 우선이 큰 해상도에서 고충실도이면서 전반적으로 일관된 이미지를 생성할 수 있는가?
RQ2이산 잠재 공간에서의 모델링이 픽셀 공간 자기회귀 모델보다 더 빠른 샘플링과 더 나은 다양성을 제공하는가?
RQ3제안된 방법이 ImageNet과 FFHQ 같은 데이터셋에서 품질과 다양성 측면에서 최신 GAN들과 어떻게 비교되는가?
RQ4분류기 기반 거부 샘플링이 SGD 학습 불안정 없이 조절 가능한 다양성-품질 트레이드오프를 제공할 수 있는가?

주요 결과

ImageNet(256x256)에서 클래스-조건 샘플은 고충실도로 최신 GAN들과 경쟁력 있는 품질을 달성한다.
계층적 잠재 접근은 광범위한 다양성을 얻어내고 정성적 비교에서 충실도는 유사하고 여러 클래스에서 BigGAN-deep보다 다양성이 더 높음을 보여준다.
정량적 지표는 일반화가 강하다는 것을 시사하며(트레이닝/검증에서의 NLL 차이가 작고), 거부 샘플링을 통한 정밀도/재현율은 품질(정밀도)과 다양성(재현율)을 모두 향상시킨다.
CAS 결과는 VQ-VAE 재구성과 분류기 평가가 BigGAN-deep 대비 상위 1위 및 상위 5위 정확도를 더 높게 보이며 실데이터에서는 더 높다.
FFHQ-1024에서 세 수준의 계층은 긴 거리 의존성(예: 눈 색상 일치)을 포착하고 높은 해상도에서도 현실적인 얼굴을 생성한다.
전반적으로 이 잠재 공간에서의 자기회귀 모델링은 GAN보다 더 넓은 다양성을 가지면서 대규모의 고충실도 이미지 생성을 위한 간단하고 효과적인 경로를 제공하고 모드 붕괴 문제를 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.