[논문 리뷰] Diffusion Models Beat GANs on Image Synthesis
diffusion models는 아키텍처 정교화 및 classifier guidance으로 이미지 합성에서 최첨단 성능을 달성하고, GANs를 여러 벤치마크에서 능가하며, 더 적은 샘플링 단계로도 높은 충실도를 가능하게 한다.
We show that diffusion models can achieve image sample quality superior to the current state-of-the-art generative models. We achieve this on unconditional image synthesis by finding a better architecture through a series of ablations. For conditional image synthesis, we further improve sample quality with classifier guidance: a simple, compute-efficient method for trading off diversity for fidelity using gradients from a classifier. We achieve an FID of 2.97 on ImageNet 128$ imes$128, 4.59 on ImageNet 256$ imes$256, and 7.72 on ImageNet 512$ imes$512, and we match BigGAN-deep even with as few as 25 forward passes per sample, all while maintaining better coverage of the distribution. Finally, we find that classifier guidance combines well with upsampling diffusion models, further improving FID to 3.94 on ImageNet 256$ imes$256 and 3.85 on ImageNet 512$ imes$512. We release our code at https://github.com/openai/guided-diffusion
연구 동기 및 목표
- diffusion models가 무조건적 생성에서 이미지 합성 품질 면에서 GANs를 능가할 수 있음을 여러 데이터셋과 해상도에 걸쳐 입증한다.
- 확장 시 diffusion model 샘플 품질을 높이는 아키텍처 개선점을 식별한다.
- 조건부 이미지 합성을 위해 샘플 충실도와 다양성의 트레이드오프를 달성하는 classifier-guided 샘플링 메커니즘을 개발한다.
- classifier guidance가 upsampling diffusion models와 시너지를 내며 품질을 더욱 향상시키는 방법을 탐구한다.
제안 방법
- timestep과 class 정보를 주입하기 위해 깊이를 증가시키고 다중 해상도 주의력, BigGAN 스타일의 up/downsampling, 및 adaptive group normalization을 갖춘 개선된 UNet-유사 diffusion 아키텍처를 채택했다.
- ImageNet에서 128x128, 256x256, 512x512 해상도로 diffusion models를 학습하고 FID 및 관련 지표로 평가했다.
- 노이즈가 있는 샘플에서 p_phi(y|x_t) 분류기를 학습시켜 classifier guidance를 도입하고 log p_phi(y|x_t)의 그래디언트를 이용해 diffusion 샘플링을 조정했으며, 그레이디언트 스케일 매개변수 s를 포함한다.
- classifier gradient가 역 노이징 프로세스의 평균을 어떻게 이동시키는지 보여주는 조건부 샘플링 공식들을 도출하고, DDIM 여부에 관계없이 classifier-guided 생성을 위한 실용적인 샘플링 알고리즘을 제시했다.
- 충실도와 다양성 간의 트레이드오프를 정량화하기 위해 unconditional guidance, conditional guidance, 그리고 upsampling diffusion 스택을 비교했다.
- LSUN 및 ImageNet 작업에서 최첨단 생성 모델과 비교하고 재현율(recall)과 정밀도(precision) 지표로 커버리지를 평가했다.
실험 결과
연구 질문
- RQ1diffusion models가 표준 벤치마크에서 무조건적 작업에 대해 GANs를 능가하는 이미지 합성 품질을 달성할 수 있는가?
- RQ2고해상도에서 diffusion model 샘플 품질을 가장 크게 향상시키는 아키텍처 변화는 무엇인가?
- RQ3classifier guidance를 어떻게 diffusion models의 조건화에 사용할 수 있으며, 그래디언트 스케일링은 충실도와 다양성에 어떤 영향을 미치는가?
- RQ4classifier guidance와 upsampling diffusion models의 결합이 단일 접근 방식 대비 서로 보완적인 이득을 가져오는가?
주요 결과
- 다층 다해상도 주의와 BigGAN 스타일의 up/downsampling을 포함한 더 깊은 폭의 아키텍처 개선은 ImageNet 128x128에서 FID를 크게 향상시키고 더 높은 해상도로 확장시킨다.
- Adaptive Normalization(AdaGN)이 timesteps와 class 정보를 주입하여 기본 프로젝션 블록 대비 FID를 더욱 향상시킨다.
- 그레이디언트 스케일링 계수를 갖는 classifier guidance는 샘플 충실도와 클래스 일관성을 현저히 향상시켜, 일부 설정에서 겨우 25개의 diffusion 단계로도 고품질의 조건부 생성을 가능하게 한다.
- 가이드된 무조건 모델은 가이드된 조건부 모델의 FID에 근접할 수 있고, 가이드된 조건부 모델은 FID를 더 향상시키며, 강한 조건부 이점을 시사한다.
- 가이드 및 업샘플링은 보완적이며, ADM-G와 ADM-U를 결합하면 ImageNet-256 및 -512 작업에서 FID와 recall의 최적의 트레이드오프를 달성한다.
- 다양한 작업에서, guidance가 포함된 diffusion models는 LSUN과 ImageNet 테스트에서 최첨단 FID와 sFID를 달성하고, 종종 BigGAN-deep를 능가하며, 유사한 GAN 기반 접근 방식보다 더 높은 분포 커버리지(recall)를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.