Skip to main content
QUICK REVIEW

[논문 리뷰] Score-Based Generative Modeling with Critically-Damped Langevin Diffusion

Tim Dockhorn, Arash Vahdat|arXiv (Cornell University)|2021. 12. 13.
Generative Adversarial Networks and Image Synthesis인용 수 35
한 줄 요약

크리티컬 댐핑 Langevin 확산(CL D)을 점수 기반 생성 모델에 도입하여 속도 변수를 데이터에 추가하고 데이터에 조건화된 속도 점수의 학습을 통해 합성 품질이 향상되고 더 빠르고 매끄러운 샘플링 방법을 제시한다.

ABSTRACT

Score-based generative models (SGMs) have demonstrated remarkable synthesis quality. SGMs rely on a diffusion process that gradually perturbs the data towards a tractable distribution, while the generative model learns to denoise. The complexity of this denoising task is, apart from the data distribution itself, uniquely determined by the diffusion process. We argue that current SGMs employ overly simplistic diffusions, leading to unnecessarily complex denoising processes, which limit generative modeling performance. Based on connections to statistical mechanics, we propose a novel critically-damped Langevin diffusion (CLD) and show that CLD-based SGMs achieve superior performance. CLD can be interpreted as running a joint diffusion in an extended space, where the auxiliary variables can be considered "velocities" that are coupled to the data variables as in Hamiltonian dynamics. We derive a novel score matching objective for CLD and show that the model only needs to learn the score function of the conditional distribution of the velocity given data, an easier task than learning scores of the data directly. We also derive a new sampling scheme for efficient synthesis from CLD-based diffusion models. We find that CLD outperforms previous SGMs in synthesis quality for similar network architectures and sampling compute budgets. We show that our novel sampler for CLD significantly outperforms solvers such as Euler--Maruyama. Our framework provides new insights into score-based denoising diffusion models and can be readily used for high-resolution image synthesis. Project page and code: https://nv-tlabs.github.io/CLD-SGM.

연구 동기 및 목표

  • 디퓨전 동역학을 재고하여 노이즈 제거 복잡성을 줄임으로써 SGMs의 개선을 촉진한다.
  • 속도 변수로 데이터를 보강하여 균형화 속도를 높이는 순방향 확산 과정을 제안한다.
  • 데이터를 주어진 조건부 속도 점수만 학습하도록 하는 점수 매칭 목적을 도출하여 학습을 단순화한다.
  • CLD 기반 SGM에서의 효율적 샘플링을 위한 맞춤 SDE 적분기(SSCS)를 개발한다.
  • 유사한 규모의 모델과 예산으로 CIFAR-10에서 개선된 FID를 보이는 경험적 이득을 시연한다.

제안 방법

  • x_t와 v_t를 갖는 데이터-속도 결합 확산과 이를 결합하는 해밀토니안 구성요소를 정의한다.
  • 평형 수렴을 최적화하기 위해 확산을 크리티컬 댐핑 Langevin(Gamma^2 = 4M)으로 설정한다.
  • nabla_{v_t} log p_t(v_t|x_t) (Eq. 6)을 목표로 하는 점수 매칭 목적을 도출한다.
  • 초기 속도를 주변화하고 계산 가능한 섭동 커널(Eq. 8)을 활용하여 효율적으로 학습하기 위해 Hybrid Score Matching(HSM)을 채택한다.
  • 점수 목표를 단순화하기 위해 Normal 유사 속도 분포를 활용하는 혼합 점수 매개변수화를 사용한다 (Eq. 9).
  • 스트랑 분할(Strang splitting)을 기반으로 한 맞춤 SDE 적분기인 대칭 분할 CLD 샘플러(SSCS)를 도입하여 Euler–Maruyama보다 샘플링을 향상시킨다.

실험 결과

연구 질문

  • RQ1CLD를 통해 속도 데이터를 보강하는 것이 SGM의 확산 기반 잡음 제거 및 합성 품질을 향상시키는가?
  • RQ2학습이 조건부 속도 점수 p_t(v_t|x_t)에 집중되면 학습을 단순화하고 모델 매끄러움을 향상시킬 수 있는가?
  • RQ3CLD 기반 샘플러(SSCS)가 표준 EM/Euler 방법과 샘플 품질 및 효율성 면에서 어떻게 비교되는가?
  • RQ4유사한 아키텍처와 계산 예산을 가진 기존 확산 모델들과 비교하여 CIFAR-10에서의 경험적 이득은 무엇인가?
  • RQ5CLD가 하이퍼파라미터에 대해 강건하며 고해상도 데이터로 확장 가능한가?

주요 결과

  • CLD 기반 SGM은 많은 t에 대해 VPSDE 기반 모델보다 더 매끄러운 신경 점수 네트워크를 만들어 학습 대상이 더 쉬워진다.
  • CIFAR-10에서 유사한 아키텍처와 예산으로 상태-아트 수준의 합성 품질에 근접하며, FID가 2.23(SDE) 및 2.25(확률 흐름)까지 낮아진다.
  • CLD 샘플러(SSCS)는 샘플링 효율성과 품질에서 Euler–Maruyama를 크게 능가한다.
  • 본 방법은 약 3.31의 NLL 경계에 도달하며 최근 디퓨전 기반 연구와 경쟁적이지만, 주로 우도 최적화를 목표로 하지 않는다.
  • 보조 속도 보강 및 해밀토니안 구성요소가 혼합과 확산을 균형 상태로 가속화하여 고품질의 확장 가능한 이미지 합성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.