QUICK REVIEW

[논문 리뷰] Lumiere: A Space-Time Diffusion Model for Video Generation

Omer Bar-Tal, Hila Chefer|arXiv (Cornell University)|2024. 01. 23.

Generative Adversarial Networks and Image Synthesis인용 수 17

한 줄 요약

Lumiere는 Space-Time U-Net를 사용하여 한 번의 패스로 전체 지속 시간 비디오를 생성하는 시공간 확산 모델을 제시하며, 전 세계적 시간적 일관성을 달성하고 다양한 비디오 편집 작업을 가능하게 한다.

ABSTRACT

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

연구 동기 및 목표

글자 텍스트에서 비디오 생성 시 전역적으로 일관된 모션의 필요성에 동기 부여.
공간과 시간 모두에서 다운샘플링하여 한 번의 패스로 전체 지속 시간을 생성하는 Space-Time U-Net(STUNet)을 제안합니다.
공간 해상도 향상을 포함한 사전 학습된 텍스트-이미지 확산 모델을 활용하여 고해상도 비디오를 생성합니다.
중첩된 SSR 구간 간의 시간적 연속성을 보장하기 위해 Multidiffusion을 도입합니다.
이미지-비디오, 비디오 인페인팅, 스타일링 등 응용을 시연합니다.

제안 방법

공간과 시간 모두에서 다운샘플링하고 대부분의 연산을 압축된 시공간 표현에서 처리하는 Space-Time U-Net(STUNet)을 도입합니다.
사전 학습된 T2I 계층 뒤에 시간적 다운샘플링/업샘플링 모듈을 포함하여 전체 지속 시간 생성을 가능하게 합니다.
가장 거친 수준에서 움직임을 포착하면서 연산을 제어하기 위해 분해된 시공간 컨볼루션과 시간 주의를 사용합니다.
시작 동작을 보존하기 위해 시간 블록을 가장 가까운 이웃 다운샘플링/업샘플링으로 초기화합니다.
중첩된 시간 창으로부터 SSR 예측을 통합하는 Multidiffusion을 확장하여 전체 비디오에 걸친 전역 일관성을 제공합니다.
사전 학습된 T2I 가중치를 고정한 채로 새로 추가된 시간 계층을 학습합니다.

실험 결과

연구 질문

RQ1단일 기반 확산 모델이 TSR 모델의 계단식 의존 없이 전역 시간적 일관성을 가진 전체 비디오 지속 시간을 생성할 수 있는가?
RQ2겹치는 시간 창 간에 공간 해상도 향상을 적용하여 고해상도 비디오 생성의 일관성을 유지할 수 있는가?
RQ3전체 지속 시간 T2V 모델이 효과적으로 지원할 수 있는 다운스트림 작업은 무엇인가(이미지-비디오, 인페인팅, 스타일라이제이션 등)?
RQ4Space-Time U-Net으로 시간 역학을 구체화하는 것이 전통적 계단식 접근법에 비해 모션 일관성을 개선하는가?
RQ5조건화(이미지, 마스크)가 비디오 생성의 품질과 제어성에 어떤 영향을 미치는가?

주요 결과

방법	FVD ↓	IS ↑
MagicVideo	655.00	-
Emu Video	606.20	42.70
Video LDM	550.61	33.45
Show-1	394.46	35.42
Make-A-Video	367.23	33.00
PYoCo	355.19	47.76
SVD	242.02	-
Lumiere (Ours)	332.49	37.54

5초, 80프레임의 비디오를 16fps로 생성하면서 최첨단 또는 경쟁력 있는 텍스트-비디오 생성 품질을 달성합니다.
STUNet를 사용하여 전체 시간 길이를 한 번에 생성함으로써 전역적으로 일관된 모션을 얻습니다. 이는 계단식 TSR 모델과 다릅니다.
이미지-비디오, 비디오 인페인팅, 스타일라이즈된 생성, 촬영적 편집 등 다재다능한 다운스트림 기능을 시연합니다.
제로샷 UCF101 평가에서 베이스라인에 비해 FVD 및 IS 점수가 경쟁적이며, 사용자 연구에서 Lumiere가 베이스라인보다 우위로 평가됩니다.
겹치는 창을 기반으로 한 Multidiffusion SSR은 경계 아티팩트 없이 시간적으로 일관된 고해상도 비디오를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.