QUICK REVIEW

[논문 리뷰] gDDIM: Generalized denoising diffusion implicit models

Qinsheng Zhang, Molei Tao|arXiv (Cornell University)|2022. 06. 11.

Advanced Neuroimaging Techniques and Applications인용 수 26

한 줄 요약

논문은 비등방성 확산 모델에 대해 DDIM을 일반화한 gDDIM을 제시하며, 원리적인 스코어 매개화 및 샘플링 체계를 제공하여 확산 기반 생성의 속도를 대폭 향상시키고, CLD와 BDM에서 상당한 가속과 경쟁력 있는 FID 결과를 보여준다.

ABSTRACT

Our goal is to extend the denoising diffusion implicit model (DDIM) to general diffusion models~(DMs) besides isotropic diffusions. Instead of constructing a non-Markov noising process as in the original DDIM, we examine the mechanism of DDIM from a numerical perspective. We discover that the DDIM can be obtained by using some specific approximations of the score when solving the corresponding stochastic differential equation. We present an interpretation of the accelerating effects of DDIM that also explains the advantages of a deterministic sampling scheme over the stochastic one for fast sampling. Building on this insight, we extend DDIM to general DMs, coined generalized DDIM (gDDIM), with a small but delicate modification in parameterizing the score network. We validate gDDIM in two non-isotropic DMs: Blurring diffusion model (BDM) and Critically-damped Langevin diffusion model (CLD). We observe more than 20 times acceleration in BDM. In the CLD, a diffusion model by augmenting the diffusion process with velocity, our algorithm achieves an FID score of 2.26, on CIFAR10, with only 50 number of score function evaluations~(NFEs) and an FID score of 2.86 with only 27 NFEs. Code is available at https://github.com/qsh-zh/gDDIM

연구 동기 및 목표

확산 모델의 동등방향 확산을 넘어선 빠른 샘플링 동기 부여.
저 NFEs에서 SDE 기반 샘플링보다 ODE 기반 샘플링을 정당화하기 위한 DDIM 메커니즘의 해석.
일반 확산 모델을 위한 스코어 네트워크 재매개화를 포함한 gDDIM 도입.
비등방성 확산 모델에서 gDDIM을 검증하고 가속 및 샘플 품질을 정량화.

제안 방법

확산 방향 흐름의 확률 해석(O D E)과 스코어 동작을 재해석하여 가속 원인 설명.
governing equation를 만족하는 시변 행렬 K_t를 R_t와 같게 설계하여 임의의 확산 모델에 DDIM 일반화.
s_theta(u,t) = -R_t^T epsilon_theta(u,t)로 스코어 네트워크를 매개화하고 결정적 및 확률적 gDDIM에 대한 근사치를 도출.
정확도를 유지하면서 NFEs를 줄이기 위한 다중 스텝 예측-수정기(Predictor-Corrector) 스킴 개발.
해당 이론적 명제를 갖는 결정적 및 확률적 gDDIM 공식화 제공.
CLD 및 BDM에서 EMA 기반 및 확률적 흐름 샘플러와의 실험적 비교.

실험 결과

연구 질문

RQ1적절한 근사를 사용할 때 일반 확산 모델에 대해 DDIM 유사 샘플링이 정확(또는 거의 정확)할 수 있는가?
RQ2샘플링 효율성과 품질을 유지하면서 비등방성 또는 보강된 확산 프로세스로 DDIM을 일반화할 수 있는가?
RQ3스코어 네트워크 매개화 및 특정 K_t/R_t 선택이 다양한 DM에서 상당한 속도 향상을 가져오는가?
RQ4CLD와 BDM에서 gDDIM을 기존 샘플러와 비교했을 때 FID 및 NFE의 실험적 이득은 무엇인가?

주요 결과

DM	Sampler	NFE=10	NFE=20	NFE=50	NFE=100	NFE=1000
DDPM†	EM	→100	→100	31.2	12.2	2.64
Prob.Flow, RK45	→100	52.5	6.62	2.63	2.56
2nd Heun††	66.25	6.62	2.65	2.57	2.56
gDDIM	4.17	3.03	2.59	2.56	2.56
BDM	Ancestral sampling	→100	→100	29.8	9.73	2.51
Prob.Flow, RK45	→100	68.2	7.12	2.58	2.46
gDDIM	4.52	2.97	2.49	2.47	2.46
CLD	EM	→100	→100	57.72	13.21	2.39
Prob.Flow, RK45	→100	→100	31.7	4.56	2.25
gDDIM	13.41	3.39	2.26	2.26	2.25

gDDIM은 스코어 네트워크 매개화의 작은 수정으로 등방성 케이스를 넘어 확산 모델을 가속할 수 있다.
결정적 gDDIM은 CLD에서 50 NFEs로 2.26 FID, 27 NFEs로 2.86의 성능을 달성하는 등 상당한 속도 향상과 경쟁력 있는 FID를 달성한다(CIFAR-10에서).
BDM 및 CLD 실험은 비슷한 모델 크기에서 베이스라인 샘플러 대비 20배 이상 가속을 보여준다.
확산 프로세스로부터 도출된 K_t = R_t를 선택하면 L_t 등 대안보다 ε_theta 궤적이 더 매끄럽고 안정성이 좋아진다.
적절한 근사를 갖춘 확률적 gDDIM은 EM 기반 방법에 비해 샘플링 효율성을 더 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.