Skip to main content
QUICK REVIEW

[논문 리뷰] Lumiere: A Space-Time Diffusion Model for Video Generation

Omer Bar-Tal, Hila Chefer|arXiv (Cornell University)|2024. 01. 23.
Generative Adversarial Networks and Image Synthesis인용 수 17
한 줄 요약

Lumiere는 Space-Time U-Net를 사용하여 한 번의 패스로 전체 지속 시간 비디오를 생성하는 시공간 확산 모델을 제시하며, 전 세계적 시간적 일관성을 달성하고 다양한 비디오 편집 작업을 가능하게 한다.

ABSTRACT

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

연구 동기 및 목표

  • 글자 텍스트에서 비디오 생성 시 전역적으로 일관된 모션의 필요성에 동기 부여.
  • 공간과 시간 모두에서 다운샘플링하여 한 번의 패스로 전체 지속 시간을 생성하는 Space-Time U-Net(STUNet)을 제안합니다.
  • 공간 해상도 향상을 포함한 사전 학습된 텍스트-이미지 확산 모델을 활용하여 고해상도 비디오를 생성합니다.
  • 중첩된 SSR 구간 간의 시간적 연속성을 보장하기 위해 Multidiffusion을 도입합니다.
  • 이미지-비디오, 비디오 인페인팅, 스타일링 등 응용을 시연합니다.

제안 방법

  • 공간과 시간 모두에서 다운샘플링하고 대부분의 연산을 압축된 시공간 표현에서 처리하는 Space-Time U-Net(STUNet)을 도입합니다.
  • 사전 학습된 T2I 계층 뒤에 시간적 다운샘플링/업샘플링 모듈을 포함하여 전체 지속 시간 생성을 가능하게 합니다.
  • 가장 거친 수준에서 움직임을 포착하면서 연산을 제어하기 위해 분해된 시공간 컨볼루션과 시간 주의를 사용합니다.
  • 시작 동작을 보존하기 위해 시간 블록을 가장 가까운 이웃 다운샘플링/업샘플링으로 초기화합니다.
  • 중첩된 시간 창으로부터 SSR 예측을 통합하는 Multidiffusion을 확장하여 전체 비디오에 걸친 전역 일관성을 제공합니다.
  • 사전 학습된 T2I 가중치를 고정한 채로 새로 추가된 시간 계층을 학습합니다.

실험 결과

연구 질문

  • RQ1단일 기반 확산 모델이 TSR 모델의 계단식 의존 없이 전역 시간적 일관성을 가진 전체 비디오 지속 시간을 생성할 수 있는가?
  • RQ2겹치는 시간 창 간에 공간 해상도 향상을 적용하여 고해상도 비디오 생성의 일관성을 유지할 수 있는가?
  • RQ3전체 지속 시간 T2V 모델이 효과적으로 지원할 수 있는 다운스트림 작업은 무엇인가(이미지-비디오, 인페인팅, 스타일라이제이션 등)?
  • RQ4Space-Time U-Net으로 시간 역학을 구체화하는 것이 전통적 계단식 접근법에 비해 모션 일관성을 개선하는가?
  • RQ5조건화(이미지, 마스크)가 비디오 생성의 품질과 제어성에 어떤 영향을 미치는가?

주요 결과

방법FVD ↓IS ↑
MagicVideo655.00-
Emu Video606.2042.70
Video LDM550.6133.45
Show-1394.4635.42
Make-A-Video367.2333.00
PYoCo355.1947.76
SVD242.02-
Lumiere (Ours)332.4937.54
  • 5초, 80프레임의 비디오를 16fps로 생성하면서 최첨단 또는 경쟁력 있는 텍스트-비디오 생성 품질을 달성합니다.
  • STUNet를 사용하여 전체 시간 길이를 한 번에 생성함으로써 전역적으로 일관된 모션을 얻습니다. 이는 계단식 TSR 모델과 다릅니다.
  • 이미지-비디오, 비디오 인페인팅, 스타일라이즈된 생성, 촬영적 편집 등 다재다능한 다운스트림 기능을 시연합니다.
  • 제로샷 UCF101 평가에서 베이스라인에 비해 FVD 및 IS 점수가 경쟁적이며, 사용자 연구에서 Lumiere가 베이스라인보다 우위로 평가됩니다.
  • 겹치는 창을 기반으로 한 Multidiffusion SSR은 경계 아티팩트 없이 시간적으로 일관된 고해상도 비디오를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.