QUICK REVIEW

[논문 리뷰] VideoLCM: Video Latent Consistency Model

Xiang Wang, Shiwei Zhang|arXiv (Cornell University)|2023. 12. 14.

Generative Adversarial Networks and Image Synthesis인용 수 8

한 줄 요약

VideoLCM은 잠재 일관성 증류를 비디오 확산 모델에 적용하여 4–6 샘플링 단계만으로 고품질 비디오 생성을 가능하게 하며, 전통적 확산 방법에 비해 현저히 빠릅니다. 텍스트-투-비디오 및 구성 비디오 합성을 지원합니다.

ABSTRACT

Consistency models have demonstrated powerful capability in efficient image generation and allowed synthesis within a few sampling steps, alleviating the high computational cost in diffusion models. However, the consistency model in the more challenging and resource-consuming video generation is still less explored. In this report, we present the VideoLCM framework to fill this gap, which leverages the concept of consistency models from image generation to efficiently synthesize videos with minimal steps while maintaining high quality. VideoLCM builds upon existing latent video diffusion models and incorporates consistency distillation techniques for training the latent consistency model. Experimental results reveal the effectiveness of our VideoLCM in terms of computational efficiency, fidelity and temporal consistency. Notably, VideoLCM achieves high-fidelity and smooth video synthesis with only four sampling steps, showcasing the potential for real-time synthesis. We hope that VideoLCM can serve as a simple yet effective baseline for subsequent research. The source code and models will be publicly available.

연구 동기 및 목표

일관성 모델을 비디오 생성에 확장하여 추론 단계를 줄일 수 있음을 시연한다.
잠재 잠재 일관성 증류를 활용하여 비디오 잠재 일관성 모델(VideoLCM)을 학습한다.
VideoLCM이 텍스트-투-비디오 및 구성 작업에서 최소한의 샘플링 단계로 높은 충실도와 시간적 일관성을 달성함을 보여준다.

제안 방법

비디오 생성에 잠재 일관성 모델링을 도입하여 계산을 줄인다.
교사 비디오 확산 모델을 사용하고 잠재 공간의 일관성 증류를 통해 학생 모델(VideoLCM)을 학습한다.
증류 과정에서 DDIM을 ODE 해결기로 사용하고 고정 가중치의 분류기-프리 가이던스를 사용한다.
텍스트-투-비디오 및 구성 비디오 합성 파이프라인과의 플러그 앤 플레이 호환성을 유지한다.
텍스트-투-비디오에서의 4–6 샘플링 단계 및 구성 작업에서 2–4단계(심지어 1단계)까지의 시연을 한다.

실험 결과

연구 질문

RQ1잠재 일관성 모델링을 비디오 생성으로 효과적으로 확장하여 품질을 저하시키지 않고 샘플링 단계를 줄일 수 있는가?
RQ2텍스트-투-비디오 대 구성 비디오 합성에서 속도, 충실도, 시간적 일관성 측면에서 VideoLCM의 성능은 어떠한가?
RQ3다양한 비디오 생성 작업에 대해 품질과 효율성의 균형을 맞추는 실용적 샘플링 단계 범위는 무엇인가?

주요 결과

VideoLCM은 텍스트-투-비디오 작업에서 단 4 샘플링 단계로 고충실도 비디오 합성을 달성한다.
50단계 기준선과 비교할 때 VideoLCM은 품질을 유지하면서 추론 시간을 크게 단축한다.
구성 깊이-대-비디오 작업에서 고품질 결과는 2–4단계, 때로는 1단계로 얻을 수 있다.
VideoLCM은 더 높은 해상도 비디오(예: 16×256×256)에서 기준선(10s)보다 더 빠른 추론을 제공한다(예: 16×256×256의 경우 10s vs 60s).
VideoLCM은 텍스트-투-비디오 생성과 구성 비디오 합성 모두에 대해 플러그 앤 플레이 기법으로 호환된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.