QUICK REVIEW

[논문 리뷰] Few-Shot Diffusion Models

Giorgio Giannone, Didrik Nielsen|arXiv (Cornell University)|2022. 05. 30.

Advanced Neuroimaging Techniques and Applications인용 수 20

한 줄 요약

본 논문은 Few-Shot Diffusion Models (FSDM)을 소개하며, 세트 인코더(ViT)로 처리된 몇 장의 예시 이미지 세트를 조건으로 DDPM을 조정하여 신속한 소수샷 생성과 보지 않은 클래스에의 전이를 가능하게 한다. FSDM은 무조건 및 조건적 기준선 대비 학습 속도 향상, 샘플 품질 향상, 전이 성능 향상을 달성한다.

ABSTRACT

Denoising diffusion probabilistic models (DDPM) are powerful hierarchical latent variable models with remarkable sample generation quality and training stability. These properties can be attributed to parameter sharing in the generative hierarchy, as well as a parameter-free diffusion-based inference procedure. In this paper, we present Few-Shot Diffusion Models (FSDM), a framework for few-shot generation leveraging conditional DDPMs. FSDMs are trained to adapt the generative process conditioned on a small set of images from a given class by aggregating image patch information using a set-based Vision Transformer (ViT). At test time, the model is able to generate samples from previously unseen classes conditioned on as few as 5 samples from that class. We empirically show that FSDM can perform few-shot generation and transfer to new datasets. We benchmark variants of our method on complex vision datasets for few-shot learning and compare to unconditional and conditional DDPM baselines. Additionally, we show how conditioning the model on patch-based input set information improves training convergence.

연구 동기 및 목표

현실적이고 복잡한 시각 데이터에 대해 소수샷 생성을 동기 부여하고 가능하게 한다.
Vision Transformer를 통해 세트 정보를 집계하는 조건화 메커니즘을 제안한다.
세트 표현을 구축하는 컨텍스트 네트와 조건부 확산 모델의 이Two-component 구성 모델을 개발한다.
학습 효율성, 샘플 품질 및 보지 않은 클래스에 대한 전이를 베이스라인 대비 향상시킴을 시연한다.

제안 방법

조건부 확산 프레임워크 p_theta(x0:T | X)를 세트 X를 통해 컨텍스트 c = h_phi(X)로 조건화하도록 정의한다.
ViT 기반 컨텍스트 인코더(sViT)를 사용해 이미지 패치를 처리하고 세트별 컨텍스트 토큰을 생성한다.
FiLM 및 Learnable Attentive Conditioning(LAC)으로 컨텍스트 c를 DDPM 특징과 융합하는 조건화 메커니즘을 탐구한다.
잡음 ε를 예측하는 것을 기반으로 하는 조건부 층별 손실 L^c_{t-1}과 고정된 무조건 항 L^c_T를 함께 사용하여 학습한다.
입력 의존적 입력 조건화와 입력 비의존적 조건화의 두 가지 컨텍스트 형식을 제공하며, 더 나은 out-of-distribution 조건화를 위해 입력 의존적 선택한다.
선택적으로 Latent 세트 변수 c를 도입하는 Variational FSDM(VFSDM)을 논의하나 실제 성능은 부족했다.

실험 결과

연구 질문

RQ1세트 기반 조건화 메커니즘이 매우 적은 데이터로도 새로운 클래스에 대해 DDPM의 소샷 생성을 가능하게 할 수 있는가?
RQ2ViT 기반 세트 인코더와 Learnable Attentive Conditioning이 FiLM 기반 접근보다 조건화 표현력을 향상시키는가?
RQ3FSDM과 베이스라인 간의 동일 분포 내/분포 밖 성능 및 서로 다른 데이터셋에 대한 전이는 어떠한가?
RQ4새롭고 복잡한 객체의 소샷 생성을 위한 학습 시점 조건화와 샘플링 시점 조건화의 영향은 무엇인가?

주요 결과

FSDM은 새로운 클래스 및 데이터셋에 대한 소샷 생성에서 무조건 및 조건적 DDPM 기준선을 능가한다.
토큰 기반 컨텍스트 표현과 교차 주의 conditioning이 노이즈 제거 품질과 샘플 다형성을 향상시킨다.
입력 의존적 컨텍스트로 학습하면 out-of-distribution 조건화 및 전이 성능이 더 좋아진다.
FSDM은 CIFAR100 및 miniImageNet 시나리오에서 기준선 대비 더 빠른 수렴과 더 나은 샘플 충실도 지표를 달성한다.
FSDM은 보지 못한 데이터셋으로의 전달 가능한 소샷 생성을 보여주며 ILVR과 같은 샘플링 시점 조건화 기준선을 여러 설정에서 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.