Skip to main content
QUICK REVIEW

[논문 리뷰] Vector Quantized Diffusion Model for Text-to-Image Synthesis

Shuyang Gu, Dong Chen|arXiv (Cornell University)|2021. 11. 29.
Generative Adversarial Networks and Image Synthesis참고 문헌 40인용 수 40
한 줄 요약

이 논문은 VQ-Diffusion을 소개하는데, 이는 텍스트-이미지 생성을 위한 VQ-VAE 잠재 공간의 이산 확산 모델로서, 마스크-앤-리플레이스 확산 전략과 재매개변화를 통해 AR 방법보다 빠른 추론 속도와 함께 최첨단 품질을 달성합니다.

ABSTRACT

We present the vector quantized diffusion (VQ-Diffusion) model for text-to-image generation. This method is based on a vector quantized variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional variant of the recently developed Denoising Diffusion Probabilistic Model (DDPM). We find that this latent-space method is well-suited for text-to-image generation tasks because it not only eliminates the unidirectional bias with existing methods but also allows us to incorporate a mask-and-replace diffusion strategy to avoid the accumulation of errors, which is a serious problem with existing methods. Our experiments show that the VQ-Diffusion produces significantly better text-to-image generation results when compared with conventional autoregressive (AR) models with similar numbers of parameters. Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can handle more complex scenes and improve the synthesized image quality by a large margin. Finally, we show that the image generation computation in our method can be made highly efficient by reparameterization. With traditional AR methods, the text-to-image generation time increases linearly with the output image resolution and hence is quite time consuming even for normal size images. The VQ-Diffusion allows us to achieve a better trade-off between quality and speed. Our experiments indicate that the VQ-Diffusion model with the reparameterization is fifteen times faster than traditional AR methods while achieving a better image quality.

연구 동기 및 목표

  • 텍스트-이미지 생성 방법에서 한 방향 편향을 해결한다.
  • 이산 잠재 공간에서 마스크-앤-리플레이스 확산을 사용하여 오류 누적을 제거한다.
  • 재매개변화를 통한 효율적 추론으로 고품질 이미지 합성을 달성한다.
  • CUB-200에서 MSCOCO 및 대규모 LAION에 이르기까지 데이터셋에 걸친 확장성을 시연한다.
  • 조건부 및 무조건적 이미지 생성을 위한 통합 프레임워크를 제공한다.

제안 방법

  • 이미지를 잠재 공간의 이산 토큰으로 매핑하기 위해 VQ-VAE를 활용한다.
  • 트랜스포머 기반 역모델을 사용한 조건부 이산 확산 프로세스로 잠재 공간을 모델링한다.
  • 토큰을 마스크하고/또는 교체할 수 있게 하는 마스크-앤-리플레이스 확산을 도입하여 학습 방향성을 제시하고 오류 누적을 줄인다.
  • 재구성 품질을 높이기 위해 변분 하한(VLB)과 보조 무잡음 없는 토큰 목표를 사용해 학습한다.
  • 무잡음 토큰을 예측하는 재매개변화 기법을 도입하여 확산 단계 수를 줄이고 더 빠른 추론을 가능하게 한다.
  • 에폭-디코딩에 타임스텝 조건을 주입하기 위해 AdaLN을 사용하는 인코더-디코더 트랜스포머 아키텍처를 활용한다.

실험 결과

연구 질문

  • RQ1VQ-Diffusion이 비슷한 매개변수 수를 가진 AR 및 GAN 기반 방법보다 텍스트-이미지 합성 품질을 향상시키는가?
  • RQ2마스크-앤-리플레이스 확산 전략이 이산 확산에서 오류 누적을 줄이고 텍스트 조건 이미지 생성의 수렴 속도를 높이는가?
  • RQ3재매개변화 및 빠른 추론 전략이 품질을 희생하지 않으면서도 속도 향상을 수십 배 제공합니다?
  • RQ4이 접근법이 다양한 도메인에서 큰 데이터셋 및 조건부/무조건부 생성을 위한 확장성을 제공하는가?

주요 결과

모델MSCOCO FIDCUB-200 FIDOxford-102 FID
StackGAN74.0551.8955.28
StackGAN++81.5915.3048.68
EFF-T2I-11.1716.47
SEGAN32.28--
AttnGAN35.4923.98-
DM-GAN32.6416.09-
DF-GAN21.42--
DAE-GAN28.1215.19-
DALLE27.5056.10-
Cogview27.10--
VQ-Diffusion-S30.1712.9714.95
VQ-Diffusion-B19.7511.9414.88
VQ-Diffusion-F13.8610.3214.10
  • VQ-Diffusion-S/B/F 모델은 MSCOCO, CUB-200, Oxford-102 데이터셋에서 여러 GAN 기반 및 AR 방법보다 더 나은 FID 점수를 달성합니다(예: VQ-Diffusion-F가 MSCOCO에서 강력한 결과를 달성).
  • 마스크-앤-리플레이스 확산 전략은 마스크-전용 또는 교체-전용 변형에 비해 오류 누적을 줄이고 수렴 속도를 향상시킵니다.
  • 재매개변화는 추론을 더 빠르게 만들며, 기존 AR 방식보다 열다섯 배 빠르면서도 더 나은 이미지 품질을 제공하는 것으로 보고됩니다.
  • 고정된 확산 단계 수와 빠른 추론 보폭으로 큰 품질 손실 없이 추론 속도를 가속화할 수 있습니다.
  • 이 방법은 조건부(텍스트 가이드) 및 무조건적 이미지 생성을 여러 데이터셋에서 작동하는 통일된 프레임워크를 제공합니다(예: FFHQ, ImageNet, COCO 등).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.