Skip to main content
QUICK REVIEW

[논문 리뷰] Cascaded Diffusion Models for High Fidelity Image Generation

Jonathan Ho, Chitwan Saharia|arXiv (Cornell University)|2021. 05. 30.
Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 453
한 줄 요약

이 논문은 계단식 확산 모델이 분류기 가이던스 없이도 고충실도 클래스-조건 ImageNet 이미지를 생성할 수 있음을 보여주며, 다해상도 캐스케이드에서 컨디셔닝 증강을 통해 강한 FID 및 CAS 점수를 달성한다.

ABSTRACT

We show that cascaded diffusion models are capable of generating high fidelity images on the class-conditional ImageNet generation benchmark, without any assistance from auxiliary image classifiers to boost sample quality. A cascaded diffusion model comprises a pipeline of multiple diffusion models that generate images of increasing resolution, beginning with a standard diffusion model at the lowest resolution, followed by one or more super-resolution diffusion models that successively upsample the image and add higher resolution details. We find that the sample quality of a cascading pipeline relies crucially on conditioning augmentation, our proposed method of data augmentation of the lower resolution conditioning inputs to the super-resolution models. Our experiments show that conditioning augmentation prevents compounding error during sampling in a cascaded model, helping us to train cascading pipelines achieving FID scores of 1.48 at 64x64, 3.52 at 128x128 and 4.88 at 256x256 resolutions, outperforming BigGAN-deep, and classification accuracy scores of 63.02% (top-1) and 84.06% (top-5) at 256x256, outperforming VQ-VAE-2.

연구 동기 및 목표

  • 다 보조 분류기가 필요 없는 계단식 확산 모델로 고충실도 클래스-조건 ImageNet 생성을 시연한다.
  • 캐스팅 파이프라인에서 샘플 품질을 개선하기 위한 컨디셔닝 증강을 제안한다.
  • 다중 해상도 캐스케이드와 증강이 샘플링 품질과 학습 효율성에 미치는 영향을 분석한다.

제안 방법

  • 해상도 간 확산 모델 파이프라인 구성(예: 32×32 → 64×64 → 128×128/256×256).
  • 학습 시 저해상도 입력에 가우시안 노이즈를 주는 컨디셔닝 증강 및 고해상도에서의 선택적 블러를 사용.
  • 저해상도에서 기본 확산 모델을 학습하고, 디테일을 업샘프하고 다듬는 별도의 슈퍼 해상도 모델을 학습.
  • 다중 지점에서 컨디셔닝 입력이 주입되는 U-네트 기반의 아키텍처를 사용.
  • 샘플 품질을 최적화하면서 학습의 트랙터블함을 유지하기 위해 간단한 손실 또는 하이브리드 손실 형식을 사용.
  • 사후 학습 하이퍼 파라미터 탐색을 가능하게 하기 위해 s(트런케이션 시간) 전역에 컨디셔닝 증강을 할당.

실험 결과

연구 질문

  • RQ1캐스케이딩 확산 파이프라인이 분류기 가이드 없이도 ImageNet에서 경쟁력 있거나 더 우수한 샘플 품질을 달성할 수 있는가?
  • RQ2컨디셔닝 증강이 캐스케이딩 확산 모델의 품질과 안정성에 어떤 영향을 미치는가?
  • RQ3다양한 해상도와 트런케이션 전략이 FID와 CAS 지표에 미치는 영향은 무엇인가?
  • RQ4컨디셔닝 증강 기법이 ImageNet을 넘어서 LSUN 같은 다른 데이터셋으로 일반화되는가?

주요 결과

모델해상도FID (train)FID (validation)ISTop-1 CASTop-5 CAS
CDM (ours)32×321.111.9926.01 ± 0.59
CDM (ours)64×641.482.4867.95 ± 1.97
CDM (ours)128×1283.523.76128.80 ± 2.5159.84%81.79%
CDM (ours)256×2564.884.63158.71 ± 2.2663.02%84.06%
  • CDM은 클래스-조건 ImageNet에서 64×64에서 1.48, 128×128에서 3.52, 256×256에서 4.88의 FID 점수를 달성하며 이러한 해상도에서 BigGAN-deep을 능가한다.
  • 256×256에서 CAS 점수는 63.02%(상위 1위) 및 84.06%(상위 5위)에 도달하며 VQ-VAE-2 및 BigGAN-deep을 능가한다.
  • 컨디셔닝 증강은 캐스케이딩 파이프라인에서 고충실도 샘플에 매우 중요하며 누적 오류와 노출 편향을 완화한다.
  • 적절한 증강이 포함된 2단계 캐스케이드(예: 32×32 기본, 32×32 → 64×64 SR, 그다음 64×64 → 128×128/256×256 SR)로 여러 해상도에서 ImageNet에 대해 최신의, 분류기 없이 달성된 결과를 얻을 수 있다.
  • 비트랜치된(비트랜치되지 않은) 및 트런케이션된 컨디셔닝 증강은 효과적으로 비슷하게 작용하여 증강 강도에 따른 실용적 하이퍼파라미터 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.