Skip to main content
QUICK REVIEW

[논문 리뷰] Score-Based Generative Modeling through Stochastic Differential Equations

Yang Song, Jascha Sohl‐Dickstein|arXiv (Cornell University)|2020. 11. 26.
Generative Adversarial Networks and Image Synthesis참고 문헌 48인용 수 1,263
한 줄 요약

통합된 확률적 미분방정식(SDE) 기반의 생성 모델 프레임워크를 도입하여 데이터를 잡음으로 변환하고 다시 변환하는 순방향 및 역방향 확률적 미분방정식을 활용함으로써 유연한 샘플링, 신경ODE를 통한 정확한 우도 계산, 연속적 학습 및 새로운 샘플러를 통한 CIFAR-10 생성에서 최첨단 성능을 달성합니다.

ABSTRACT

Creating noise from data is easy; creating data from noise is generative modeling. We present a stochastic differential equation (SDE) that smoothly transforms a complex data distribution to a known prior distribution by slowly injecting noise, and a corresponding reverse-time SDE that transforms the prior distribution back into the data distribution by slowly removing the noise. Crucially, the reverse-time SDE depends only on the time-dependent gradient field (\aka, score) of the perturbed data distribution. By leveraging advances in score-based generative modeling, we can accurately estimate these scores with neural networks, and use numerical SDE solvers to generate samples. We show that this framework encapsulates previous approaches in score-based generative modeling and diffusion probabilistic modeling, allowing for new sampling procedures and new modeling capabilities. In particular, we introduce a predictor-corrector framework to correct errors in the evolution of the discretized reverse-time SDE. We also derive an equivalent neural ODE that samples from the same distribution as the SDE, but additionally enables exact likelihood computation, and improved sampling efficiency. In addition, we provide a new way to solve inverse problems with score-based models, as demonstrated with experiments on class-conditional generation, image inpainting, and colorization. Combined with multiple architectural improvements, we achieve record-breaking performance for unconditional image generation on CIFAR-10 with an Inception score of 9.89 and FID of 2.20, a competitive likelihood of 2.99 bits/dim, and demonstrate high fidelity generation of 1024 x 1024 images for the first time from a score-based generative model.

연구 동기 및 목표

  • 노이즈로 데이터를 지속적으로 perturb하고 점수 추정으로 프로세스를 역으로 수행하는 것을 통해 데이터를 모델링하는 통합 확산 기반 프레임워크를 동기화하려고 한다.
  • 신경망을 이용해 시간 의존 점수 값을 추정하고 SDE를 사용해 고충실도 샘플을 생성하며 정확한 우도를 계산하는 방법을 개발한다.
  • 샘플 품질과 우도 성능을 향상시키기 위한 샘플링 개선(예측-수정, 역 확산 샘플러)과 연속적 학습 목표를 도입한다.
  • 단일 비조건 점수 모델 내에서 클래스 조건 생성, 인페인팅, 컬러라이제이션과 같은 작업에 대해 제어 가능한 생성을 가능하게 한다.
  • CIFAR-10 및 고해상도 이미지에서의 확장성과 결과를 시연하고 확산 및 점수 기반 기준선과 비교한다.

제안 방법

  • 데이터를 점차적으로 노이즈가 추가되도록 하는 연속 확산 과정(Ito SDE)을 모델링하여 데이터 분포에서 처리 가능한 선행분포로 점진적으로 변환한다.
  • 시간 의존 점수 ∇x log pt(x)를 사용하여 소음을 다시 데이터로 변환하는 역시간 SDE를 유도한다.
  • 연속 점수 매칭을 통해 시간 의존 점수 모델 sθ(x,t)를 학습하여 ∇x log pt(x)를 근사한다.
  • 수치적 스텝과 점수 기반 MCMC 보정을 결합한 예측-수정기(PC) 샘플러를 도입하고 역 SDE를 일반 목적의 해석기로 풀이한다.
  • 확률 흐름 ODE를 도출 및 사용하여 SDE와 같은 주변 분포를 얻고 신경 ODE 기법을 통한 정확한 우도 계산을 가능하게 한다.
  • VE(Variance Exploding), VP(Variance Preserving), sub-VP SDE 변형을 제시하고 닫힌형 교란 커널 및 샘플링 업데이트를 분석한다.
  • 전방 모델의 그래디언트를 통해 보조 정보(예: 클래스 라벨)에 조건화를 적용하여 제어 가능한 생성을 수행하는 것을 보여주며, 보정된 임퓨테이션 및 컬러라이제이션을 가능하게 한다.

실험 결과

연구 질문

  • RQ1확률적 미분방정식 프레임워크 하에서 점수 기반 생성 모델링을 어떻게 하나의 unified 프레임워크로 통합할 수 있는가?
  • RQ2시간 의존 점수로부터 역시간 SDE를 효과적으로 추정하여 고충실도 샘플을 생성할 수 있는가?
  • RQ3샘플 품질, 속도, 우도 계산 간의 최적의 트레이드오프를 제공하는 샘플러(일반 SDE 해석기, 예측-수정, 확률 흐름 ODE)는 무엇인가?
  • RQ4연속적 학습 목표와 아키텍처 개선으로 최첨단 이미지 생성 지표와 정확한 우도를 달성할 수 있는가?
  • RQ5무조건적 점수 모델이 클래스 조건 생성, 인페인팅, 컬러라이제이션과 같은 제어 가능한 생성 작업을 어느 정도까지 지원할 수 있는가?

주요 결과

  • 통합된 SDE 기반 프레임워크는 데이터를 노이즈 priors로 매핑하고 추정된 점수를 사용해 확산을 역으로 수행하여 데이터 샘플을 생성할 수 있다.
  • 연속 점수 매칭으로 학습된 시간 의존 점수 모델은 모든 t에 대해 ∇x log pt(x)를 근사할 수 있어 역 SDE 샘플링 및 확률 흐름 ODE를 통한 정확한 우도 계산을 가능하게 한다.
  • Predictor-Corrector 샘플러 및 역 확산 샘플러는 VE 및 VP/sub-VP SDE에서 조상 샘플링보다 일관되게 샘플 품질을 향상시킨다.
  • 확률 흐름 ODE는 빠르고 적응적인 샘플링과 정확한 우도 계산을 가능하게 하며, CIFAR-10에서의 로그-우도(비트/차원) 향상 및 경쟁력 있는 FID/IS를 보여준다.
  • 아키텍처 및 학습 개선(NCSN++, DDPM++, 연속적 목표)은 CIFAR-10에서 기록적인 이미지 생성 지표를 달성하고(인셉션 점수 9.89, FID 2.20) 1024×1024 CelebA-HQ 생성을 점수 기반 모델로 가능하게 한다.
  • 새로운 우도-기록 방법(DDPM++ cont. with sub-VP)은 uniformly dequantized CIFAR-10에서 2.99 bits/dim으로 지금까지 보고된 최고치를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.