[논문 리뷰] Cascaded Diffusion Models for High Fidelity Image Generation
이 논문은 계단식 확산 모델이 분류기 가이던스 없이도 고충실도 클래스-조건 ImageNet 이미지를 생성할 수 있음을 보여주며, 다해상도 캐스케이드에서 컨디셔닝 증강을 통해 강한 FID 및 CAS 점수를 달성한다.
We show that cascaded diffusion models are capable of generating high fidelity images on the class-conditional ImageNet generation benchmark, without any assistance from auxiliary image classifiers to boost sample quality. A cascaded diffusion model comprises a pipeline of multiple diffusion models that generate images of increasing resolution, beginning with a standard diffusion model at the lowest resolution, followed by one or more super-resolution diffusion models that successively upsample the image and add higher resolution details. We find that the sample quality of a cascading pipeline relies crucially on conditioning augmentation, our proposed method of data augmentation of the lower resolution conditioning inputs to the super-resolution models. Our experiments show that conditioning augmentation prevents compounding error during sampling in a cascaded model, helping us to train cascading pipelines achieving FID scores of 1.48 at 64x64, 3.52 at 128x128 and 4.88 at 256x256 resolutions, outperforming BigGAN-deep, and classification accuracy scores of 63.02% (top-1) and 84.06% (top-5) at 256x256, outperforming VQ-VAE-2.
연구 동기 및 목표
- 다 보조 분류기가 필요 없는 계단식 확산 모델로 고충실도 클래스-조건 ImageNet 생성을 시연한다.
- 캐스팅 파이프라인에서 샘플 품질을 개선하기 위한 컨디셔닝 증강을 제안한다.
- 다중 해상도 캐스케이드와 증강이 샘플링 품질과 학습 효율성에 미치는 영향을 분석한다.
제안 방법
- 해상도 간 확산 모델 파이프라인 구성(예: 32×32 → 64×64 → 128×128/256×256).
- 학습 시 저해상도 입력에 가우시안 노이즈를 주는 컨디셔닝 증강 및 고해상도에서의 선택적 블러를 사용.
- 저해상도에서 기본 확산 모델을 학습하고, 디테일을 업샘프하고 다듬는 별도의 슈퍼 해상도 모델을 학습.
- 다중 지점에서 컨디셔닝 입력이 주입되는 U-네트 기반의 아키텍처를 사용.
- 샘플 품질을 최적화하면서 학습의 트랙터블함을 유지하기 위해 간단한 손실 또는 하이브리드 손실 형식을 사용.
- 사후 학습 하이퍼 파라미터 탐색을 가능하게 하기 위해 s(트런케이션 시간) 전역에 컨디셔닝 증강을 할당.
실험 결과
연구 질문
- RQ1캐스케이딩 확산 파이프라인이 분류기 가이드 없이도 ImageNet에서 경쟁력 있거나 더 우수한 샘플 품질을 달성할 수 있는가?
- RQ2컨디셔닝 증강이 캐스케이딩 확산 모델의 품질과 안정성에 어떤 영향을 미치는가?
- RQ3다양한 해상도와 트런케이션 전략이 FID와 CAS 지표에 미치는 영향은 무엇인가?
- RQ4컨디셔닝 증강 기법이 ImageNet을 넘어서 LSUN 같은 다른 데이터셋으로 일반화되는가?
주요 결과
| 모델 | 해상도 | FID (train) | FID (validation) | IS | Top-1 CAS | Top-5 CAS |
|---|---|---|---|---|---|---|
| CDM (ours) | 32×32 | 1.11 | 1.99 | 26.01 ± 0.59 | ||
| CDM (ours) | 64×64 | 1.48 | 2.48 | 67.95 ± 1.97 | ||
| CDM (ours) | 128×128 | 3.52 | 3.76 | 128.80 ± 2.51 | 59.84% | 81.79% |
| CDM (ours) | 256×256 | 4.88 | 4.63 | 158.71 ± 2.26 | 63.02% | 84.06% |
- CDM은 클래스-조건 ImageNet에서 64×64에서 1.48, 128×128에서 3.52, 256×256에서 4.88의 FID 점수를 달성하며 이러한 해상도에서 BigGAN-deep을 능가한다.
- 256×256에서 CAS 점수는 63.02%(상위 1위) 및 84.06%(상위 5위)에 도달하며 VQ-VAE-2 및 BigGAN-deep을 능가한다.
- 컨디셔닝 증강은 캐스케이딩 파이프라인에서 고충실도 샘플에 매우 중요하며 누적 오류와 노출 편향을 완화한다.
- 적절한 증강이 포함된 2단계 캐스케이드(예: 32×32 기본, 32×32 → 64×64 SR, 그다음 64×64 → 128×128/256×256 SR)로 여러 해상도에서 ImageNet에 대해 최신의, 분류기 없이 달성된 결과를 얻을 수 있다.
- 비트랜치된(비트랜치되지 않은) 및 트런케이션된 컨디셔닝 증강은 효과적으로 비슷하게 작용하여 증강 강도에 따른 실용적 하이퍼파라미터 탐색을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.