QUICK REVIEW

[논문 리뷰] Improved Denoising Diffusion Probabilistic Models

Alex Nichol, Prafulla Dhariwal|arXiv (Cornell University)|2021. 02. 18.

Generative Adversarial Networks and Image Synthesis참고 문헌 27인용 수 412

한 줄 요약

이 논문은 DDPM을 향상시켜 경쟁력 있는 log-likelihood를 달성하고, 학습된 분산으로 더 빠른 샘플링을 가능하게 하며, 확산 모델이 GAN보다 더 많은 모드를 커버하고 계산량에 따라 확장된다는 점을 보여줍니다.

ABSTRACT

Denoising diffusion probabilistic models (DDPM) are a class of generative models which have recently been shown to produce excellent samples. We show that with a few simple modifications, DDPMs can also achieve competitive log-likelihoods while maintaining high sample quality. Additionally, we find that learning variances of the reverse diffusion process allows sampling with an order of magnitude fewer forward passes with a negligible difference in sample quality, which is important for the practical deployment of these models. We additionally use precision and recall to compare how well DDPMs and GANs cover the target distribution. Finally, we show that the sample quality and likelihood of these models scale smoothly with model capacity and training compute, making them easily scalable. We release our code at https://github.com/openai/improved-diffusion

연구 동기 및 목표

DDPM을 log-likelihood 및 분포 커버리지 측면에서 평가하는 것이 타당한가를 모티브로 한다.
샘플 품질을 유지하면서 DDPM log-likelihood를 개선한다.
역방향 프로세스 분산을 학습하여 더 빠른 샘플링을 가능하게 한다.
그래디언트 노이즈를 감소시키기 위한 학습 목표 및 노이즈 일정 탐색.
모델 크기와 계산 자원에 따른 DDPM의 확장성을 보여준다.

제안 방법

Sigma_theta를 β_t와 tilde_beta_t 사이의 보간으로서 역방향 프로세스 분산을 학습한다(Equation 15).
샘플 품질과 우도 간의 균형을 맞추기 위해 L_hybrid = L_simple + lambda L_vlb인 하이브리드 학습 목표를 제시한다.
확산 과정에서 정보를 더 잘 보존하기 위해 선형 노이즈 스케줄을 코사인 스케줄로 대체한다(Equation 17).
L_vlb의 그래디언트 노이즈를 줄이기 위해 중요도 샘플링을 적용한다(Equation 18).
ImageNet 64x64 및 CIFAR-10에서 ablations를 사용해 학습 목표(L_simple, L_hybrid, L_vlb)와 스케줄을 비교한다.
학습된 시그마를 이용해 더 적은 확산 단계로도 고품질 샘플링을 가능하게 하여 더 빠른 샘플링을 시연한다.

실험 결과

연구 질문

RQ1DDPM이 ImageNet 64x64와 같은 고다양성 데이터셋에서 경쟁력 있는 log-likelihood를 달성할 수 있는가?
RQ2역방향 분산을 학습하는 것이 우도와 샘플 품질 모두를 개선하는가?
RQ3코사인 노이즈 스케줄이 선형 스케줄보다 정보 보존 및 샘플 품질을 개선하는가?
RQ4중요도 샘플링이 로그 가능도 최적화에서 그래디언트 노이즈를 줄일 수 있는가?
RQ5모델 크기와 학습 계산 자원의 증가에 따라 FID와 NLL 측면에서 DDPM이 어떻게 확장되는가?

주요 결과

Iters	T	Schedule	Objective	NLL	FID
200K	1K	linear	L_simple	3.99	32.5
200K	4K	linear	L_simple	3.77	31.3
200K	4K	linear	L_hybrid	3.66	32.2
200K	4K	cosine	L_simple	3.68	27.0
200K	4K	cosine	L_hybrid	3.62	28.0
200K	4K	cosine	L_vlb	3.57	56.7
1.5M	4K	cosine	L_hybrid	3.57	19.2
1.5M	4K	cosine	L_vlb	3.53	40.1

Sigma_theta를 통한 학습된 분산이 샘플 품질을 유지하면서 log-likelihood를 상당히 개선한다.
학습된 시그마와 코사인 스케줄을 갖춘 하이브드 목표가 이전 기준선과 비교해 NLL이 더 좋고 FID가 비슷하다.
중요도 샘플링은 L_vlb에서 그래디언트 노이즈를 줄여 더 나은 log-likelihood 최적화를 가능하게 한다.
확산 모델은 유사한 FID에서 GAN보다 더 높은 재현율을 달성하여 더 넓은 모드 커버리지를 시사한다.
샘플링 속도가 향상되어 100단계에서도 완전 학습된 모델의 경우 거의 최적의 FID에 근접할 수 있다.
모델 크기와 계산 자원에 따른 FID 및 NLL의 성능 확장이 예측 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.