QUICK REVIEW

[논문 리뷰] Elucidating the Design Space of Diffusion-Based Generative Models

Tero Karras, Miika Aittala|arXiv (Cornell University)|2022. 06. 01.

Generative Adversarial Networks and Image Synthesis인용 수 307

한 줄 요약

논문은 확산 모델의 모듈형 설계 공간을 제시하고 샘플링 및 학습 개선을 제안하며 CIFAR-10 및 ImageNet-64에서 더 빠른 샘플링으로 새로운 최첨단 FID를 달성했다. 또한 이전 연구의 사전 학습된 모델에 대한 개선도 보여준다.

ABSTRACT

We argue that the theory and practice of diffusion-based generative models are currently unnecessarily convoluted and seek to remedy the situation by presenting a design space that clearly separates the concrete design choices. This lets us identify several changes to both the sampling and training processes, as well as preconditioning of the score networks. Together, our improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a class-conditional setting and 1.97 in an unconditional setting, with much faster sampling (35 network evaluations per image) than prior designs. To further demonstrate their modular nature, we show that our design changes dramatically improve both the efficiency and quality obtainable with pre-trained score networks from previous work, including improving the FID of a previously trained ImageNet-64 model from 2.07 to near-SOTA 1.55, and after re-training with our proposed improvements to a new SOTA of 1.36.

연구 동기 및 목표

확산 기반 생성 모델의 실용적 설계 공간을 구체적 구성 요소와 선택을 분리하여 명확히 한다.
더 높은 차수 해석기, 최적화된 스케줄, 확률성 분석을 통해 샘플링 효율성과 출력 품질을 개선한다.
점진적(score 네트워크) 전처리 및 엔드 투 엔드 학습 관행을 개발하여 강인성 및 성능을 향상시킨다.
기존 모델에서 모듈식 개선을 시연하고 CIFAR-10 및 ImageNet-64에서 이익을 보여준다.

제안 방법

공통 ODE/SDE 프레임워크에서 확산 모델을 표현하고 독립적인 설계 구성 요소를 식별한다.
최적의 시간 스케줄과 곡률 인식 σ(t)와 s(t)를 갖춘 결정적 샘플링에 2차 헤운 해석기를 적용한다.
샘플링에서 확률적 노이즈 주입(churn)을 제어하는 확률적 샘플러를 도입하여 샘플링에서 확률성의 역할을 분석한다.
학습 안정화를 위한 σ 의존 점 skip 및 스케일링(cin, cout, cskip, cnoise)을 갖는 전처리된 점 네트워크 Dθ를 제안한다.
학습 중 손실 가중치와 노이즈 분포를 최적화(λ(σ), ptrain(σ))하고 일반화를 개선하기 위해 비 누수(non-leaky) 데이터 증강을 사용한다.
새로운 최첨단 FID를 달성하고 더 빠른 샘플링(NFE 감소)을 보여주는 학습 개선을 시연한다.

실험 결과

연구 질문

RQ1확산 모델에서 성능과 샘플링 속도에 영향을 주는 독립적인 설계 선택은 무엇인가?
RQ2샘플링 전략(결정적 대 확률적)이 학습과 분리된 상태에서 모델 계열 간 이미지 품질에 어떤 영향을 미치는가?
RQ3원칙에 의한 전처리 및 학습 손실이 해상도와 데이터 세트에 걸쳐 강인성과 최종 FID를 개선할 수 있는가?
RQ4샘플링 중 ODE 궤적 및 디노이저 가이던스에 대한 σ(t), s(t) 스케줄링의 영향은 무엇인가?
RQ5모듈식 개선이 이전 연구의 사전 학습된 확산 모델에 얼마나 전이될 수 있는가?

주요 결과

더 빠른 샘플링(이미지당 35 Dθ 평가)으로 CIFAR-10(조건부)에서 1.79, CIFAR-10 무조건적 1.97의 최첨단 FID를 달성했다.
이전 모델로 ImageNet-64에서 거의 최첨단 1.55를 달성했고 제안된 개선으로 재학습 후 1.36으로 향상시켰다.
2차 헤운 해석기를 채택하고, 최적화된 σ(t)와 s(t), 정교한 시간 간격 스케줄로 샘플링 속도를 크게 향상시켰다.
더 나은 학습 전처리 및 손실 가중치(λ(σ), ptrain(σ))와 비누출 증강이 해상도 전반에 걸쳐 강력한 개선을 가져왔다는 것을 보여주었다.
모듈식 개선의 적용이 모델 군(VP/VE, DDPM/DDIM, ImageNet-64)에 대해 일관된 이득을 가져다주는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.