[논문 리뷰] Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
VidRD는 반복적이며 단일 LDM 프레임워크를 도입하여 잠재 특징을 재사용하고 확산시켜 길고 시간적으로 일관된 텍스트-대-비디오 클립을 생성하며, 시간 인식 디코더 미세조정과 다양한 데이터 구성 전략을 활용합니다. 이는 분석된 방법들에 비해 학습 복잡도를 줄이면서 UCF-101에서 경쟁력 있는 FVD와 IS를 달성합니다.
Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed $ extit{VidRD}$ to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available $\href{https://anonymous0x233.github.io/ReuseAndDiffuse/}{here}$.
연구 동기 및 목표
- 계산 제약 하에서 잠재 확산 모델(LDM)을 활용한 텍스트-대-비디오 합성을 고무한다.
- 초기 클립의 잠재 특징을 재사용하여 길고 일관된 비디오를 생성하기 위한 통합적이고 반복적인 프레임워크를 개발한다.
- 디코더의 시간적 계층과 시간 인식 U-Net을 통해 시간적 일관성을 향상시킨다.
- 강건한 학습을 위해 이미지-텍스트와 행동 인식 비디오 데이터셋을 활용하는 데이터 구성 전략을 제안한다.
제안 방법
- VidRD를 사전 학습된 Stable Diffusion LDM 위에 기반시키고 U-Net에 시간 계층(Temp-Conv 및 Temp-Attn)을 확장한다.
- 오토인코더 디코더에 시간 계층을 주입하고 추가된 시간 구성요소만 미세조정한다.
- 반복을 위한 세 가지 생성 모듈 도입: Frame-level Noise Reversion (FNR), Past-dependent Noise Sampling (PNS), 및 Denoising with Staged Guidance (DSG).
- 클립 간 역순으로 초기 노이즈를 재사용(FNR); 후반 프레임에 대해 새로운 무작위 노이즈를 주입(PNS); 내용의 일관성을 유지하면서 새로운 콘텐츠를 허용하기 위해 단계적 가이던스 적용(DSG).
- 이미지-텍스트 데이터셋을 의사 비디오로 변환하고, 짧은 비디오에 BLIP-2로 주석을 달고, 긴 비디오를 CLIP 및 MiniGPT-4로 구간화하여 비디오-텍스트 데이터를 구성한다.
실험 결과
연구 질문
- RQ1단일 확산 모델을 어떻게 사용하여 별도의 예측 구성 요소를 학습시키지 않고도 길고 시간적으로 일관된 비디오를 생성할 수 있는가?
- RQ2시간적 일관성을 개선하고 비디오 클립 간 콘텐츠 순환을 줄이는 메커니즘(FNR, PNS, DSG)은 무엇인가?
- RQ3다양하고 현실적으로 자막이 달린 다원소 데이터셋이 LDM을 비디오 합성에 효과적으로 학습시킬 수 있는가?
- RQ4표준 비디오 생성 벤치마크에서 VidRD는 FVD와 IS 측면에서 어떻게 성능을 보이는가?
주요 결과
- VidRD는 UCF-101에서 Fréchet Video Distance(FVD) 363.19와 Inception Score(IS) 39.37로 경쟁력 있는 정량적 결과를 달성한다.
- 시간 모듈과 반복적 생성을 통해 여러 모델의 연속 구동 없이도 더 길고 매끄러운 비디오를 가능하게 한다.
- 이미지-텍스트와 행동 인식 데이터셋을 활용한 통합 학습 방식은 합성용 강건한 비디오-텍스트 정렬을 제공한다.
- Frame-level Noise Reversion, Past-dependent Noise Sampling, 및 Denoising with Staged Guidance는 클립 간의 시간적 일관성을 집합적으로 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.