Skip to main content
QUICK REVIEW

[논문 리뷰] Maximum Likelihood Training of Score-Based Diffusion Models

Yang Song, Conor Durkan|arXiv (Cornell University)|2021. 01. 22.
Advanced Neuroimaging Techniques and Applications참고 문헌 54인용 수 46
한 줄 요약

본 연구는 점수 기반 확산 모델의 음의 대수 우도(negative log-likelihood)를 상한하는 확률 가중 목적함수를 도출하여 근사 최대우도 학습을 가능하게 하고, 데이터셋과 SDE 전반에 걸쳐 모델 우도를 향상시키며 CIFAR-10 및 ImageNet32x32에서 증강 없이도 경쟁적인 비트/차원(bit/dim) 성능을 달성합니다.

ABSTRACT

Score-based diffusion models synthesize samples by reversing a stochastic process that diffuses data to noise, and are trained by minimizing a weighted combination of score matching losses. The log-likelihood of score-based diffusion models can be tractably computed through a connection to continuous normalizing flows, but log-likelihood is not directly optimized by the weighted combination of score matching losses. We show that for a specific weighting scheme, the objective upper bounds the negative log-likelihood, thus enabling approximate maximum likelihood training of score-based diffusion models. We empirically observe that maximum likelihood training consistently improves the likelihood of score-based diffusion models across multiple datasets, stochastic processes, and model architectures. Our best models achieve negative log-likelihoods of 2.83 and 3.76 bits/dim on CIFAR-10 and ImageNet 32x32 without any data augmentation, on a par with state-of-the-art autoregressive models on these tasks.

연구 동기 및 목표

  • 가중 스코어 매칭 손실을 음의 로그-가능도에 대한 상한으로 연결하여 점수 기반 확산 모델(SBDMs)의 더 높은 가능도 학습을 동기부여하고 가능하게 한다.
  • bound를 촘촘하게 하고 모델의 가능도를 향상시키는 확률 가중치(lambda(t) = g(t)^2)를 도입한다.
  • SDE/ODE 형식과 가능도 간의 이론적 보장을 제공하고, 실제 학습에 적용하기 위한 분산 감소 및 변분 기법을 제안한다.
  • 데이터셋, SDE 패밀리(VE/VP/subVP) 및 모델 아키텍처 전반에서 향상된 로그 가능도를 시연하고, CIFAR-10 및 ImageNet-32x32에서 경쟁력 있는 결과를 제시한다.

제안 방법

  • 정방향 SDE와 역방향-SDE를 갖는 점수 기반 확산 모델을 정식화하고, 신경망이 학습할 시간 의존 스코어를 정의한다.
  • 확률 가중치 λ(t) = g(t)^2를 사용하면 가중 스코어 매칭 목적함수가 모델 p_theta^SDE에 대한 KL 발산의 상한을 형성하여 음의 로그-가능도 최적화와 연결된다.
  • 스코어가 참 시간 의존 스코어와 일치하는 특정 조건에서 p_theta^SDE와 p_theta^ODE(CNF) 사이의 등가성을 보인다.
  • 개별 데이터 포인트에 대한 L^SM_theta(x) 및 L^DSM_theta(x)를 통해 효율적 추정과 학습을 가능하게 하는 실용적 경계(bound)를 제공한다.
  • 수치적 안정성을 위해 작은 ε > 0를 사용하고 편향 보정을 Jensen의 부등식으로 논의한다.
  • 가중 확률 가중치로 인한 높은 분산을 완화하기 위한 중요도 샘플링으로 분산 감소를 도입하고, 이를 변분 디퀀타이제이션과 결합하여 가능도를 향상시킨다.

실험 결과

연구 질문

  • RQ1확률 가중치가 점수 기반 확산 모델의 음의 대수 가능도에 대한 원칙적 상한을 제공하는가?
  • RQ2확률 가중 스코어 매칭 목적함수를 최적화하면 p_theta^SDE 및 p_theta^ODE의 실제 로그 가능도가 데이터셋과 SDE 유형 전반에서 향상되는가?
  • RQ3가능도 상한이 촘촘해지거나 참 데이터 스코어 역학과 등가가 되는 조건은 무엇인가?
  • RQ4학습에서 가능가중을 사용할 때 분산을 어떻게 제어하고, 중요도 샘플링 및 변분 디퀀타이제이션이 가능도를 더 향상시킬 수 있는가?

주요 결과

  • 확률 가중치(lambda(t) = g(t)^2)가 데이터에서 p_theta^SDE로의 KL 발산을 상한하도록 하여 근사 최대우도 학습을 가능하게 한다.
  • 확률 가중 학습으로 여러 데이터셋, 다양한 SDE 유형(VE/VP/subVP) 및 모델 아키텍처에서 p_theta^SDE의 가능도가 일관되게 향상된다.
  • 실험에서 데이터 증강 없이 CIFAR-10에서 2.83 bits/dim, ImageNet-32x32에서 3.76 bits/dim의 경쟁력 있는 로그 가능도를 보여주며, 이는 최첨단 자가회귀 모델과 비슷한 수준이다.
  • SDE 기반 SBDMs와 CNF를 확률 흐름 ODE를 통해 연결하고, 정확한 스코어 매칭 하에서 CNF 가능도와 동등함을 보인다.
  • 확률 가중치의 분산은 중요도 샘플링으로 효과적으로 감소되어 학습 안정성과 성능을 향상시킨다.
  • 이 방법은 표준 Fréchet Inception Distance 지표에서 큰 손실 없이 더 높은 품질의 가능도 추정을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.