[논문 리뷰] ControlVideo: Training-free Controllable Text-to-Video Generation
ControlVideo는 전 프레임 주의 fully cross-frame attention, interleaved-frame smoother, 그리고 hierarchical sampler를 채택하여, 상용 GPU에서도 고품질의 시간적으로 일관된 텍스트-투-비디오 생성을 training 없이 가능하게 한다.
Text-driven diffusion models have unlocked unprecedented abilities in image generation, whereas their video counterpart still lags behind due to the excessive training cost of temporal modeling. Besides the training burden, the generated videos also suffer from appearance inconsistency and structural flickers, especially in long video synthesis. To address these challenges, we design a \emph{training-free} framework called extbf{ControlVideo} to enable natural and efficient text-to-video generation. ControlVideo, adapted from ControlNet, leverages coarsely structural consistency from input motion sequences, and introduces three modules to improve video generation. Firstly, to ensure appearance coherence between frames, ControlVideo adds fully cross-frame interaction in self-attention modules. Secondly, to mitigate the flicker effect, it introduces an interleaved-frame smoother that employs frame interpolation on alternated frames. Finally, to produce long videos efficiently, it utilizes a hierarchical sampler that separately synthesizes each short clip with holistic coherency. Empowered with these modules, ControlVideo outperforms the state-of-the-arts on extensive motion-prompt pairs quantitatively and qualitatively. Notably, thanks to the efficient designs, it generates both short and long videos within several minutes using one NVIDIA 2080Ti. Code is available at https://github.com/YBYBZhang/ControlVideo.
연구 동기 및 목표
- 비용이 많이 드는 시간적 모델 학습 없이 효율적인 비디오 생성을 목표로 한다.
- 사전 학습된 text-to-image 모델을 활용하여 외관 일관된 비디오를 가능하게 한다.
- 프레임 보간 기반 스무딩을 통해 구조적 깜빡임을 줄인다.
- 메모리 효율적인 계층적 샘플링 전략으로 긴 비디오를 지원한다.
제안 방법
- ControlNet을 비디오에 맞게 확장하여 U-Net을 시간 축으로 확장하되 ControlNet 보조 분기를 유지한다.
- 모든 프레임을 하나의 더 큰 시간 차원으로 연결하여 self-attention에서 완전한 프레임 간 상호작용을 도입한다.
- 선정된 타임스텝에서 3프레임 클립의 가운데 프레임을 보간하여 깜빡임을 제거하는 interleaved-frame smoother를 추가한다.
- 긴 비디오를 짧은 클립으로 나누고 장거리 일관성을 위해 주요 프레임을 사전에 생성하는 계층적 샘플러를 구현한다.
- 50 타임스텝의 DDIM 샘플링과 가벼운 프레임 보간(RIFE)을 사용하여 스무딩한다.
실험 결과
연구 질문
- RQ1텍스트와 모션 시퀀스로 조건화된 고품질의 시간적으로 일관된 비디오 생성을 training-free 적응 방식으로 이미지-투-비디오 모델에서 달성할 수 있는가?
- RQ2전체 프레임 간 주의가 첫 프레임 전용 또는 희박한 프레임 간 메커니즘과 비교하여 외관 일관성을 향상시키는가?
- RQ3interleaved-frame smoother가 프레임 개별성을 희생하지 않으면서 구조적 깜빡임을 줄이는가?
- RQ4상용 GPU에서 계층적 샘플러를 통해 긴 비디오를 효율적으로 생성할 수 있는가?
주요 결과
| Method | Structure Condition | Frame Consistency (%) | Prompt Consistency (%) |
|---|---|---|---|
| Tune-A-Video | DDIM Inversion | 94.53 | 31.57 |
| Text2Video-Zero | Canny Edge | 95.17 | 30.74 |
| ControlVideo | Canny Edge | 96.83 | 30.75 |
| Text2Video-Zero | Depth Map | 95.99 | 31.69 |
| ControlVideo | Depth Map | 97.22 | 31.81 |
- ControlVideo는 모션 프롬프트 쌍에서 구조와 프레임 품질 모두에서 기준선보다 우수하다.
- 깊이 조건화된 비디오는 canny-조건화된 것보다 시간적 일관성과 텍스트 충실도가 높다.
- Fully cross-frame interaction은 다른 프레임 간 메커니즘보다 프레임 일관성을 높이며, smoother를 추가하면 일관성이 더 향상된다.
- 계층적 샘플러는 일반 GPU에서 긴 비디오를 전체적으로 일관되게 생성할 수 있게 한다.
- RTX 2080Ti에서 짧은 비디오(~15프레임)는 약 2분, 긴 비디오(~100프레임)는 약 10분 정도 소요된다.
- 정성적 결과는 Tune-A-Video 및 Text2Video-Zero에 비해 외관 일관성과 결함이 더 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.