QUICK REVIEW

[논문 리뷰] Soft Diffusion: Score Matching for General Corruptions

Giannis Daras, Mauricio Delbracio|arXiv (Cornell University)|2022. 09. 12.

Mathematical Biology Tumor Growth인용 수 29

한 줄 요약

이 논문은 Soft Score Matching을 도입하여 일반 선형 오염 과정에 대한 점수 함수를 학습하고, CelebA-64에서 최첨단 FID를 달성하며 vanilla diffusion보다 더 빠른 샘플링을 달성한다.

ABSTRACT

We define a broader family of corruption processes that generalizes previously known diffusion models. To reverse these general diffusions, we propose a new objective called Soft Score Matching that provably learns the score function for any linear corruption process and yields state of the art results for CelebA. Soft Score Matching incorporates the degradation process in the network. Our new loss trains the model to predict a clean image, extit{that after corruption}, matches the diffused observation. We show that our objective learns the gradient of the likelihood under suitable regularity conditions for a family of corruption processes. We further develop a principled way to select the corruption levels for general diffusion processes and a novel sampling method that we call Momentum Sampler. We show experimentally that our framework works for general linear corruption processes, such as Gaussian blur and masking. We achieve state-of-the-art FID score $1.85$ on CelebA-64, outperforming all previous linear diffusion models. We also show significant computational benefits compared to vanilla denoising diffusion.

연구 동기 및 목표

확산 모델이 더 넓은 범위의 오염 과정(가우시안 추가 노이즈 이상)을 처리하도록 동기를 부여한다.
정식 선형 오염 과정의 점수를 확실하게 학습하는 학습 목표를 개발하고 네트워크에 degradation 연산자를 포함한다.
중간 오염 수준을 선택하는 원칙적 방법과 효율적 샘플링을 위한 새로운 Momentum Sampler를 제안한다.
CelebA-64와 CIFAR-10에서 vanilla diffusion보다 더 빠른 계산으로 최첨단 생성 성능을 입증한다.

제안 방법

x_t = C_t x_0 + s_t η_t인 일반 오염 모델을 정의한다. 여기서 C_t는 결정적 선형 연산자이고 η_t는 가우시안 노이즈이다.
오염 C_t를 포함하여 깨끗한 이미지의 흐리거나 오염된 버전을 예측하도록 네트워크를 학습시키는 Soft Score Matching 손실을 도출한다.
네트워크를 다시 매개변수화하여 s_theta(x_t|t) = (C_t h_theta(x_t|t) - x_t) / σ_t^2를 통해 노이즈 성분을 예측하고, 훈련 안정화를 위해 잔차를 추가로 학습한다.
약한 정규성 가정 하에서 s_theta를 로그 가능도 q_t(x_t)의 그래디언트와 정렬시키는 DSM 유사 목적을 제공한다(정리 3.1).
다양성을 향상시키고 샘플링 효율을 높이기 위해 서로 다른 확산 수준의 오염을 볼록 결합하여 샘플을 생성하는 Momentum Sampler를 도입한다.
가우시안 블러와 노이즈를 확산 메커니즘으로 사용한 CelebA와 CIFAR-10 실험에서 CelebA-64에서 FID 1.85를 달성한다.

실험 결과

연구 질문

RQ1점수 매칭이 광범위한 선형 오염 과정에 대해 이론적으로 학습될 수 있는가?
RQ2일반 선형 확산에서 학습 및 샘플링을 최적화하기 위해 중간 오염 수준을 어떻게 선택해야 하는가?
RQ3네트워크에 degradation 연산자를 통합하는 것이 비가산 오염에서 학습 및 샘플 품질을 개선하는가?
RQ4제안된 Momentum Sampler가 표준 확산 방법에 비해 샘플 다양성 및 생성 속도에 어떤 영향을 미치는가?

주요 결과

Soft Score Matching은 완만한 조건에서 일반 선형 오염 과정의 점수를 이론적으로 학습한다.
이 방법은 선형 확산 모델에서 CelebA-64에 대해 최첨단 FID 1.85를 달성한다.
오염 연산자를 네트워크에 포함시키면 흐림과 같은 오염에 대해 실용적 학습이 개선된다.
Momentum Sampler는 샘플 다양성을 향상시키고 vanilla diffusion에 비해 계산 비용을 감소시킨다.
CelebA 및 CIFAR-10에 대한 실험은 Gaussian blur 및 masking과 같은 일반 선형 오염에 대해 효과를 보여준다.
프레임워크는 vanilla Gaussian denoising diffusion에 비해 더 빠른 샘플링을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.