QUICK REVIEW

[논문 리뷰] Cascaded Diffusion Models for High Fidelity Image Generation

Jonathan Ho, Chitwan Saharia|arXiv (Cornell University)|2021. 05. 30.

Generative Adversarial Networks and Image Synthesis참고 문헌 35인용 수 453

한 줄 요약

이 논문은 계단식 확산 모델이 분류기 가이던스 없이도 고충실도 클래스-조건 ImageNet 이미지를 생성할 수 있음을 보여주며, 다해상도 캐스케이드에서 컨디셔닝 증강을 통해 강한 FID 및 CAS 점수를 달성한다.

ABSTRACT

We show that cascaded diffusion models are capable of generating high fidelity images on the class-conditional ImageNet generation benchmark, without any assistance from auxiliary image classifiers to boost sample quality. A cascaded diffusion model comprises a pipeline of multiple diffusion models that generate images of increasing resolution, beginning with a standard diffusion model at the lowest resolution, followed by one or more super-resolution diffusion models that successively upsample the image and add higher resolution details. We find that the sample quality of a cascading pipeline relies crucially on conditioning augmentation, our proposed method of data augmentation of the lower resolution conditioning inputs to the super-resolution models. Our experiments show that conditioning augmentation prevents compounding error during sampling in a cascaded model, helping us to train cascading pipelines achieving FID scores of 1.48 at 64x64, 3.52 at 128x128 and 4.88 at 256x256 resolutions, outperforming BigGAN-deep, and classification accuracy scores of 63.02% (top-1) and 84.06% (top-5) at 256x256, outperforming VQ-VAE-2.

연구 동기 및 목표

다 보조 분류기가 필요 없는 계단식 확산 모델로 고충실도 클래스-조건 ImageNet 생성을 시연한다.
캐스팅 파이프라인에서 샘플 품질을 개선하기 위한 컨디셔닝 증강을 제안한다.
다중 해상도 캐스케이드와 증강이 샘플링 품질과 학습 효율성에 미치는 영향을 분석한다.

제안 방법

해상도 간 확산 모델 파이프라인 구성(예: 32×32 → 64×64 → 128×128/256×256).
학습 시 저해상도 입력에 가우시안 노이즈를 주는 컨디셔닝 증강 및 고해상도에서의 선택적 블러를 사용.
저해상도에서 기본 확산 모델을 학습하고, 디테일을 업샘프하고 다듬는 별도의 슈퍼 해상도 모델을 학습.
다중 지점에서 컨디셔닝 입력이 주입되는 U-네트 기반의 아키텍처를 사용.
샘플 품질을 최적화하면서 학습의 트랙터블함을 유지하기 위해 간단한 손실 또는 하이브리드 손실 형식을 사용.
사후 학습 하이퍼 파라미터 탐색을 가능하게 하기 위해 s(트런케이션 시간) 전역에 컨디셔닝 증강을 할당.

실험 결과

연구 질문

RQ1캐스케이딩 확산 파이프라인이 분류기 가이드 없이도 ImageNet에서 경쟁력 있거나 더 우수한 샘플 품질을 달성할 수 있는가?
RQ2컨디셔닝 증강이 캐스케이딩 확산 모델의 품질과 안정성에 어떤 영향을 미치는가?
RQ3다양한 해상도와 트런케이션 전략이 FID와 CAS 지표에 미치는 영향은 무엇인가?
RQ4컨디셔닝 증강 기법이 ImageNet을 넘어서 LSUN 같은 다른 데이터셋으로 일반화되는가?

주요 결과

모델	해상도	FID (train)	FID (validation)	IS	Top-1 CAS	Top-5 CAS
CDM (ours)	32×32	1.11	1.99	26.01 ± 0.59
CDM (ours)	64×64	1.48	2.48	67.95 ± 1.97
CDM (ours)	128×128	3.52	3.76	128.80 ± 2.51	59.84%	81.79%
CDM (ours)	256×256	4.88	4.63	158.71 ± 2.26	63.02%	84.06%

CDM은 클래스-조건 ImageNet에서 64×64에서 1.48, 128×128에서 3.52, 256×256에서 4.88의 FID 점수를 달성하며 이러한 해상도에서 BigGAN-deep을 능가한다.
256×256에서 CAS 점수는 63.02%(상위 1위) 및 84.06%(상위 5위)에 도달하며 VQ-VAE-2 및 BigGAN-deep을 능가한다.
컨디셔닝 증강은 캐스케이딩 파이프라인에서 고충실도 샘플에 매우 중요하며 누적 오류와 노출 편향을 완화한다.
적절한 증강이 포함된 2단계 캐스케이드(예: 32×32 기본, 32×32 → 64×64 SR, 그다음 64×64 → 128×128/256×256 SR)로 여러 해상도에서 ImageNet에 대해 최신의, 분류기 없이 달성된 결과를 얻을 수 있다.
비트랜치된(비트랜치되지 않은) 및 트런케이션된 컨디셔닝 증강은 효과적으로 비슷하게 작용하여 증강 강도에 따른 실용적 하이퍼파라미터 탐색을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.