QUICK REVIEW

[논문 리뷰] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Jay Zhangjie Wu, Yixiao Ge|arXiv (Cornell University)|2022. 12. 22.

Generative Adversarial Networks and Image Synthesis인용 수 27

한 줄 요약

Tune-A-Video는 사전 학습된 텍스트-투-이미지 확산 모델을 단일 텍스트-비디오 쌍으로 미세조정하여 텍스트 프롬프트에서 비디오를 생성하고 편집하는 방법을 보여주며, 희소 시공간 어텐션과 DDIM 역전을 사용해 시간적 일관성을 달성합니다.

ABSTRACT

To replicate the success of text-to-image (T2I) generation, recent works employ large-scale video datasets to train a text-to-video (T2V) generator. Despite their promising results, such paradigm is computationally expensive. In this work, we propose a new T2V generation setting$\unicode{x2014}$One-Shot Video Tuning, where only one text-video pair is presented. Our model is built on state-of-the-art T2I diffusion models pre-trained on massive image data. We make two key observations: 1) T2I models can generate still images that represent verb terms; 2) extending T2I models to generate multiple images concurrently exhibits surprisingly good content consistency. To further learn continuous motion, we introduce Tune-A-Video, which involves a tailored spatio-temporal attention mechanism and an efficient one-shot tuning strategy. At inference, we employ DDIM inversion to provide structure guidance for sampling. Extensive qualitative and numerical experiments demonstrate the remarkable ability of our method across various applications.

연구 동기 및 목표

이미지 데이터로 학습된 기존 T2I 모델을 활용하여 비용 효율적인 T2V 생성을 모티브로 한다.
T2I 모델이 시-동작 기반 모션을 표현하고 시공간 도메인으로 확장될 때 일관된 콘텐츠를 생성할 수 있음을 입증한다.
사전 학습된 지식을 보존하기 위한 희소 시공간 어텐션 및 목표 매개변수 업데이트를 갖춘 경량화된 Tune-A-Video 프레임워크를 제안한다.
추론 중 DDIM 역전을 통해 구조 가이던스를 도입하여 시간적으로 일관된 모션을 보장한다.

제안 방법

비디오 생성을 가능하게 하도록 2D Latent Diffusion Model(LDM)을 시공간 도메인으로 확장한다.
계산 복잡도를 O(2mN^2)으로 제한하는 첫 프레임 및 이전 프레임에 주목하는 희소 시공간 어텐션(ST-Attn)을 도입한다.
prior 지식을 보존하기 위해 ST-Attn의 투영 행렬(W^Q)만 미세조정하고 Cross-Attn 쿼리만 업데이트하며 K와 V는 고정한다.
DDIM 역전을 사용하여 입력 비디오로부터 구조화된 잠재를 얻고 편집된 프롬프트로 샘플링을 안내하여 시간적으로 일관된 출력을 생성한다.
개인화 및 조건부 T2I 모델(DreamBooth, T2I-Adapter, ControlNet 등)과의 호환성을 확보하여 제어 가능한 생성을 가능하게 한다.
학습은 표준 LDM 목표를 따르고 추론은 분류기 없는 가이던스로 DDIM 샘플링을 사용한다.

실험 결과

연구 질문

RQ1사전 학습된 T2I 확산 모델이 단일 텍스트-비디오 쌍으로 미세조정되면 편집된 프롬프트에서 시간적으로 일관된 비디오를 생성할 수 있는가?
RQ2희소 시공간 어텐션과 선택적 미세조정이 이전 지식을 보존하면서 모션 제어를 가능하게 하는가?
RQ3DDIM 역전이 샘플링 중 입력 모션을 편집된 프롬프트로 이전시키는 구조 가이던스를 제공하여 시간적 일관성과 모션 일치도를 향상시키는가?

주요 결과

Tune-A-Video는 하나의 텍스트-비디오 쌍을 사용하여 사전 학습된 T2I 모델에서 시간적으로 일관된 비디오 생성을 달성한다.
희소 ST-Attn과 선택적 미세조정은 콘텐츠 일관성을 보존하고 효율적인 업데이트로 모션 적응을 가능하게 한다.
DDIM 역전은 샘플링 중에 입력 모션을 편집된 프롬프트로 옮기는 데 도움을 주는 구조 가이던스를 제공한다.
정성적 및 정량적 실험에서 Tune-A-Video가 프레임 일관성과 텍스트 정렬에서 기준 모델을 능가함을 보인다.
이 방법은 기존 T2I 어댑터 및 확산 기반 편집과의 개인화 및 조건부 생성을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.