QUICK REVIEW

[논문 리뷰] SinFusion: Training Diffusion Models on a Single Image or Video

Yaniv Nikankin, Niv Haim|arXiv (Cornell University)|2022. 11. 21.

Generative Adversarial Networks and Image Synthesis인용 수 20

한 줄 요약

SinFusion은 단일 이미지나 비디오에서 확산 모델을 학습하여 다양한 샘플을 생성하고 소수의 프레임으로 실제 입력에서 비디오 확장, 업샘플링, 편집을 가능하게 한다.

ABSTRACT

Diffusion models exhibited tremendous progress in image and video generation, exceeding GANs in quality and diversity. However, they are usually trained on very large datasets and are not naturally adapted to manipulate a given input image or video. In this paper we show how this can be resolved by training a diffusion model on a single input image or video. Our image/video-specific diffusion model (SinFusion) learns the appearance and dynamics of the single image or video, while utilizing the conditioning capabilities of diffusion models. It can solve a wide array of image/video-specific manipulation tasks. In particular, our model can learn from few frames the motion and dynamics of a single input video. It can then generate diverse new video samples of the same dynamic scene, extrapolate short videos into long ones (both forward and backward in time) and perform video upsampling. Most of these tasks are not realizable by current video-specific generation methods.

연구 동기 및 목표

대규모 데이터셋이 아니라 단일 입력 이미지나 비디오에서 확산 모델의 능력을 활성화하도록 동기를 부여한다.
단일 비디오의 외관과 역동성을 학습하여 조작 및 편집 작업을 가능하게 한다.
단일 입력으로 다양한 생성, 시간적 외삽(앞으로 및 뒤로의 시간 확장), 그리고 시간적 업샘플링을 달성한다.
단일 이미지/비디오 데이터에 적합한 DDPM의 아키텍처 및 학습 수정안을 제안한다.

제안 방법

DDPM 백본을 완전히 합성곱으로 만들고 전역 어텐션과 다운샘플링/업샘플링 층을 제거하여 수용 영역 증가를 줄인다.
단일 이미지에서 큰 크롭으로 학습하여 전체 이미지에 대한 과적합을 피하면서 글로벌 구조를 보존한다.
제한된 수용 영역으로 어텐션과 유사한 능력을 모방하기 위해 ResNet 블록을 ConvNext 블록으로 대체한다.
단일 이미지 DDPM 학습에서 노이즈 대신 깨끗한 이미지 x0를 예측하도록 하여 품질과 속도를 개선한다.
비디오의 경우 이전 프레임에 조건을 두는 Predictor, 아티팩트를 보정하는 Projector, 시간적 업샘플링인 Interpolator의 세 가지 단일 이미지 DDPM으로 구성한다.
프레임 차이에 조건을 두고 프레임 간격 k에 대한 커리큘럼으로 예측 품질을 향상시킨다.
입력 영상에서 세 모델을 각각 학습시키고 추론 시 자가회귀적으로 결합하여 다양하고 더 긴 비디오를 생성한다.

실험 결과

연구 질문

RQ1단일 이미지나 단일 비디오에서 확산 모델을 학습시켜 유사한 외관과 역동성을 가진 새로운 샘플을 생성할 수 있는가?
RQ2최소한의 입력 데이터(예: 몇 프레임)에서 학습된 확산 모델에서 어떤 편집 및 비디오 조작 능력이 나타나는가?
RQ3단일 비디오 확산 프레임워크가 다양한 생성, 시간의 외삽, 시간적 업샘플링에 얼마나 잘 일반화되는가?
RQ4데이터가 매우 제한적일 때(단일 이미지/비디오) 효과적인 확산 모델링을 가능하게 하는 어떤 아키텍처 변화가 있는가?

주요 결과

단일 이미지에서 학습된 확산 모델은 전역 구조와 외관을 보존하는 다양한 샘플을 생성할 수 있다.
세 모델 구성의 단일 비디오 DDPM 프레임워크는 단일 입력 비디오에서 다양한 비디오 생성, 앞방향/뒷방향 외삽 및 시간적 업샘플링을 가능하게 한다.
이 프레임워크는 소수의 프레임(대개 수십 프레임)에서 보지 못한 프레임으로의 모션 일반화를 보여준다.
SinFusion은 실제 입력 비디오를 편집하고 관찰된 프레임을 넘어 모션을 외삽하며 비디오 프레임을 업샘플링할 수 있으며, 다양성-품질 트레이드오프에서 기존의 단일 비디오 방법들을 능가한다.
단일 비디오에서 다양한 생성을 평가하기 위한 새로운 NN 기반 다양성 지표(NNFDIV)와 NNFDIST 및 SVFID를 제안한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.