QUICK REVIEW

[논문 리뷰] Vector Quantized Diffusion Model for Text-to-Image Synthesis

Shuyang Gu, Dong Chen|arXiv (Cornell University)|2021. 11. 29.

Generative Adversarial Networks and Image Synthesis참고 문헌 40인용 수 40

한 줄 요약

이 논문은 VQ-Diffusion을 소개하는데, 이는 텍스트-이미지 생성을 위한 VQ-VAE 잠재 공간의 이산 확산 모델로서, 마스크-앤-리플레이스 확산 전략과 재매개변화를 통해 AR 방법보다 빠른 추론 속도와 함께 최첨단 품질을 달성합니다.

ABSTRACT

We present the vector quantized diffusion (VQ-Diffusion) model for text-to-image generation. This method is based on a vector quantized variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional variant of the recently developed Denoising Diffusion Probabilistic Model (DDPM). We find that this latent-space method is well-suited for text-to-image generation tasks because it not only eliminates the unidirectional bias with existing methods but also allows us to incorporate a mask-and-replace diffusion strategy to avoid the accumulation of errors, which is a serious problem with existing methods. Our experiments show that the VQ-Diffusion produces significantly better text-to-image generation results when compared with conventional autoregressive (AR) models with similar numbers of parameters. Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can handle more complex scenes and improve the synthesized image quality by a large margin. Finally, we show that the image generation computation in our method can be made highly efficient by reparameterization. With traditional AR methods, the text-to-image generation time increases linearly with the output image resolution and hence is quite time consuming even for normal size images. The VQ-Diffusion allows us to achieve a better trade-off between quality and speed. Our experiments indicate that the VQ-Diffusion model with the reparameterization is fifteen times faster than traditional AR methods while achieving a better image quality.

연구 동기 및 목표

텍스트-이미지 생성 방법에서 한 방향 편향을 해결한다.
이산 잠재 공간에서 마스크-앤-리플레이스 확산을 사용하여 오류 누적을 제거한다.
재매개변화를 통한 효율적 추론으로 고품질 이미지 합성을 달성한다.
CUB-200에서 MSCOCO 및 대규모 LAION에 이르기까지 데이터셋에 걸친 확장성을 시연한다.
조건부 및 무조건적 이미지 생성을 위한 통합 프레임워크를 제공한다.

제안 방법

이미지를 잠재 공간의 이산 토큰으로 매핑하기 위해 VQ-VAE를 활용한다.
트랜스포머 기반 역모델을 사용한 조건부 이산 확산 프로세스로 잠재 공간을 모델링한다.
토큰을 마스크하고/또는 교체할 수 있게 하는 마스크-앤-리플레이스 확산을 도입하여 학습 방향성을 제시하고 오류 누적을 줄인다.
재구성 품질을 높이기 위해 변분 하한(VLB)과 보조 무잡음 없는 토큰 목표를 사용해 학습한다.
무잡음 토큰을 예측하는 재매개변화 기법을 도입하여 확산 단계 수를 줄이고 더 빠른 추론을 가능하게 한다.
에폭-디코딩에 타임스텝 조건을 주입하기 위해 AdaLN을 사용하는 인코더-디코더 트랜스포머 아키텍처를 활용한다.

실험 결과

연구 질문

RQ1VQ-Diffusion이 비슷한 매개변수 수를 가진 AR 및 GAN 기반 방법보다 텍스트-이미지 합성 품질을 향상시키는가?
RQ2마스크-앤-리플레이스 확산 전략이 이산 확산에서 오류 누적을 줄이고 텍스트 조건 이미지 생성의 수렴 속도를 높이는가?
RQ3재매개변화 및 빠른 추론 전략이 품질을 희생하지 않으면서도 속도 향상을 수십 배 제공합니다?
RQ4이 접근법이 다양한 도메인에서 큰 데이터셋 및 조건부/무조건부 생성을 위한 확장성을 제공하는가?

주요 결과

모델	MSCOCO FID	CUB-200 FID	Oxford-102 FID
StackGAN	74.05	51.89	55.28
StackGAN++	81.59	15.30	48.68
EFF-T2I	-	11.17	16.47
SEGAN	32.28	-	-
AttnGAN	35.49	23.98	-
DM-GAN	32.64	16.09	-
DF-GAN	21.42	-	-
DAE-GAN	28.12	15.19	-
DALLE	27.50	56.10	-
Cogview	27.10	-	-
VQ-Diffusion-S	30.17	12.97	14.95
VQ-Diffusion-B	19.75	11.94	14.88
VQ-Diffusion-F	13.86	10.32	14.10

VQ-Diffusion-S/B/F 모델은 MSCOCO, CUB-200, Oxford-102 데이터셋에서 여러 GAN 기반 및 AR 방법보다 더 나은 FID 점수를 달성합니다(예: VQ-Diffusion-F가 MSCOCO에서 강력한 결과를 달성).
마스크-앤-리플레이스 확산 전략은 마스크-전용 또는 교체-전용 변형에 비해 오류 누적을 줄이고 수렴 속도를 향상시킵니다.
재매개변화는 추론을 더 빠르게 만들며, 기존 AR 방식보다 열다섯 배 빠르면서도 더 나은 이미지 품질을 제공하는 것으로 보고됩니다.
고정된 확산 단계 수와 빠른 추론 보폭으로 큰 품질 손실 없이 추론 속도를 가속화할 수 있습니다.
이 방법은 조건부(텍스트 가이드) 및 무조건적 이미지 생성을 여러 데이터셋에서 작동하는 통일된 프레임워크를 제공합니다(예: FFHQ, ImageNet, COCO 등).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.