QUICK REVIEW

[논문 리뷰] Consistency Models

Yang Song, Prafulla Dhariwal|arXiv (Cornell University)|2023. 03. 02.

Generative Adversarial Networks and Image Synthesis인용 수 24

한 줄 요약

노이즈를 직접 데이터에 매핑하는 일관성 모델을 도입하여 빠른 한 단계 생성, 선택적 다단 보정 및 제로샷 편집을 가능하게 하며, CIFAR-10, ImageNet-64, LSUN에서 강력한 성능을 보여준다.

ABSTRACT

Diffusion models have significantly advanced the fields of image, audio, and video generation, but they depend on an iterative sampling process that causes slow generation. To overcome this limitation, we propose consistency models, a new family of models that generate high quality samples by directly mapping noise to data. They support fast one-step generation by design, while still allowing multistep sampling to trade compute for sample quality. They also support zero-shot data editing, such as image inpainting, colorization, and super-resolution, without requiring explicit training on these tasks. Consistency models can be trained either by distilling pre-trained diffusion models, or as standalone generative models altogether. Through extensive experiments, we demonstrate that they outperform existing distillation techniques for diffusion models in one- and few-step sampling, achieving the new state-of-the-art FID of 3.55 on CIFAR-10 and 6.20 on ImageNet 64x64 for one-step generation. When trained in isolation, consistency models become a new family of generative models that can outperform existing one-step, non-adversarial generative models on standard benchmarks such as CIFAR-10, ImageNet 64x64 and LSUN 256x256.

연구 동기 및 목표

샘플 품질을 손실하지 않으면서 Diffusion보다 빠른 샘플링을 동기부여한다.
PF ODE 궤적에서 궤적 기원을 자기 일관적으로 매핑하는 것을 제안한다.
제로샷 데이터 편집을 한 번의 샘플링 또는 다단계 생성으로 가능하게 한다.
사전 학습된 확산 모델로부터의 증류와 독립적 학습의 두 가지 훈련 패러다임을 제공한다.

제안 방법

일관성 함수 f를 정의하여 PF ODE 궤적의 임의의 지점이 궤적의 기원으로 매핑되도록 한다.
f를 t = ε에서 경계 조건으로 매개화하여 f(x, ε) = x이고 스킵 커넥션 스타일의 형식을 사용한다.
사전 학습된 확산 모델과 경험적 PF ODE에서의 짝을 사용한 일관성 증류를 통해 f를 훈련한다(식 3 및 식 6).
또는 확산 모델 없이 단독으로 일관성 훈련 손실에 의존하는 데이터 노이즈 추정자의 점수를 이용해 f를 학습한다.
x_T의 가우시안 샘플에서 f를 평가하여 x_ε를 얻음으로써 한 단계 샘플링이 가능하며, 추가 시점에서 f를 재적용하여 계산량과 품질 간의 트레이드를 달성하면 다단계 샘플링이 가능하다.
인페인팅, 색상화, 잡음 제거, 보간, 스트로크 가이드 편집 등과 같은 제로샷 데이터 편집 능력을 시연한다.

실험 결과

연구 질문

RQ1PF ODE 궤적에서 궤적 기원으로의 자기 일관 매핑이 고품질의 한 단계 샘플링 생성을 가능하게 하는가?
RQ2일관성 증류가 표준 데이터셋에서 점진적 증류 및 다른 빠른 샘플링 방법과 비교하여 어떠한가?
RQ3일관성 모델이 태스크별 학습 없이 제로샷 데이터 편집을 수행할 수 있는가?
RQ4최적의 성능을 위한 효과적인 학습 전략(증류 대 독립) 및 풀이기 선택은 무엇인가?
RQ5단일 단계 생성과 다단계 보정 간의 컴퓨트 및 샘플 품질 측면의 트레이드오프는 무엇인가?

주요 결과

일관성 모델은 CIFAR-10 및 ImageNet-64에서 증류 기준과 비교하여 단일 단계 생성에 대해 경쟁력 있거나 우수한 품질을 보여준다.
증류로 사용할 때, 몇 단계 생성에서 기존의 확산 증류 방법들을 능가하며, CIFAR-10의 한- 및 이단계 결과, ImageNet-64의 한- 및 이단계 결과에서 그러하다.
고립적으로 일관성 모델을 학습하면 표준 벤치마크에서 단일 단계 비대립적 기준선을 능가하고 많은 GAN을 능가할 수 있는 새로운 클래스를 창출하는 생성 모델이 된다.
일관성 모델은 제로샷 데이터 편집 작업의 광범위한 범위를 지원한다(인페인팅, 색상화, 초해상도, 잡음 제거, 스트로크 기반 편집 등).
제안된 일관성 증류 및 일관성 학습 프레임워크는 안정적인 수렴과 명확한 이론적 근거를 제공하며, 특정 극한에서의 비대수적 오차 한계 및 등가성 결과를 포함한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.