Skip to main content
QUICK REVIEW

[논문 리뷰] Vector-quantized Image Modeling with Improved VQGAN

Jiahui Yu, Xin Li|arXiv (Cornell University)|2021. 10. 09.
Natural Language Processing Techniques참고 문헌 60인용 수 92
한 줄 요약

논문은 이미지 벡터 양자화 모델링(VIM)을 향상시키기 위한 ViT-VQGAN을 도입하여 ImageNet에서 최첨단 FID/IS를 달성하고, 2단계 ViT-VQGAN 인코더/디코더와 자동회귀 토큰 모델링을 위한 디코더-전용 Transformer를 통해 강력한 비지도 표현을 제시합니다.

ABSTRACT

Pretraining language models with next-token prediction on massive text corpora has delivered phenomenal zero-shot, few-shot, transfer learning and multi-tasking capabilities on both generative and discriminative language tasks. Motivated by this success, we explore a Vector-quantized Image Modeling (VIM) approach that involves pretraining a Transformer to predict rasterized image tokens autoregressively. The discrete image tokens are encoded from a learned Vision-Transformer-based VQGAN (ViT-VQGAN). We first propose multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional, class-conditioned image generation and unsupervised representation learning. When trained on ImageNet at \(256 imes256\) resolution, we achieve Inception Score (IS) of 175.1 and Fr'echet Inception Distance (FID) of 4.17, a dramatic improvement over the vanilla VQGAN, which obtains 70.6 and 17.04 for IS and FID, respectively. Based on ViT-VQGAN and unsupervised pretraining, we further evaluate the pretrained Transformer by averaging intermediate features, similar to Image GPT (iGPT). This ImageNet-pretrained VIM-L significantly beats iGPT-L on linear-probe accuracy from 60.3% to 73.2% for a similar model size. VIM-L also outperforms iGPT-XL which is trained with extra web image data and larger model size.

연구 동기 및 목표

  • CNN을 양자화기의 Vision Transformer로 대체하여 효율성과 충실도를 향상시키고 벡터 양자화 이미지 모델링을 motivate하고 확장한다.
  • ViT-VQGAN 양자화기를 개발하여 다운스트림 자회전 모델링을 위한 코드북 사용도 및 재구성 품질을 개선한다.
  • 디스크리트 이미지 토큰에 대해 학습된 Transformer가 무조건적/클래스-조건 생성 및 비지도 표현 학습을 수행할 수 있음을 보여준다.
  • 강력한 이미지 합성 지표(FID/IS)와 이전 생성 및 판별 사전 학습 방법에 비해 경쟁력 있는 선형 탐색 성능을 보여준다.

제안 방법

  • VQGAN 프레임워크에서 CNN 인코더/디코더를 Vision Transformer로 교체하여 엔드-투-엔드 이미지 양자화를 수행하는 ViT-VQGAN을 제시한다.
  • 저차원 요인화 코드 인덱스, L2 정규화, 로짓-래플라스(logit-laplace), L2, 페르셉추얼, GAN 손실 등과 같은 요소를 통해 코드북 사용과 재구성을 개선한다.
  • ViT-VQGAN이 생성한 1024개의 이미지 토큰을 자동회귀적으로 모델링하기 위해 디코더-전용 Transformer(VIM)을 훈련한다.
  • 비지도 학습의 경우, 중간 블록의 평균화된 Transformer 특징에서 소프트맥스 헤드를 학습시켜 선형 탐색을 평가한다.
  • 클래스-조건 샘플링 시 이미지 토큰 앞에 클래스 아이디 토큰을 추가하여 이미지를 조건화한다.

실험 결과

연구 질문

  • RQ1ViT 기반 양자화(ViT-VQGAN)가 CNN 기반 VQGAN보다 재구성 품질 및 코드북 사용을 개선할 수 있는가?
  • RQ2Discrete 이미지 토큰 위의 Transformer를 가진 VIM 프레임워크가 무조건적 및 클래스로-조건된 이미지 합성을 강하게 달성하는가?
  • RQ3VIM에서 학습된 표현이 ImageNet에서 다른 생성적 및 판별적 사전학습 방법과 비교해 경쟁력 있는 선형 탐색 정확도를 보유하는가?
  • RQ4아키텍처 선택(인코더/디코더 크기, 코드북 설계, 정규화)이 FID/IS 및 다운스트림 선형 평가에 어떤 영향을 미치는가?
  • RQ5비지도 학습 중 인지 손실을 제거하는 것이 생성 작업에서 포함하는 것과 비교해 어떤 영향을 주는가?

주요 결과

  • ViT-VQGAN은 CNN-VQGAN보다 다양한 구성에서 재구성 품질과 처리 속도가 더 우수하다.
  • ViT-VQGAN + VIM-Large를 사용한 무조건적 ImageNet 생성은 IS 175.1, FID 4.17을 달성하는 반면, 기본 VQGAN의 IS 70.6, FID 17.04를 보인다.
  • ImageNet에서 VIM-Large의 선형 탐색 정확도는 73.2%에 도달하여 iGPT-L(60.3%)와 iGPT-XL 대비 강력한 비지도 표현을 시사한다.
  • 테이블 결과는 8192 코드북 크기와 1024 토큰을 가진 ViT-VQGAN이 ImageNet에서 우수한 FID(1.28)를 달성하고 CelebA-HQ 및 FFHQ에서도 유사한 이득을 보임을 보여준다.
  • ViT-VQGAN으로의 클래스-조건 샘플링은 IS 175.1, FID 4.17(L=Large stage 2)을 달성하고 분류기 기반 거부 샘플링을 적용하면 FID가 3.04, IS가 227.4로 개선된다.
  • 비지도 표현(VIM-Large)은 ImageNet에서 73.2%의 선형 탐색 정확도를 달성하여 iGPT-L보다 우수하며 BYOL/DINO와 같은 판별적 방법의 선형 평가에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.