[논문 리뷰] Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Text2Video-Zero는 모션 다이내믹스와 프레임 간 어텐션을 반영하도록 사전 학습된 텍스트-투-이미지 확산 모델을 수정하여 어떠한 학습 없이도 텍스트 프롬프트로 시간적으로 일관된 비디오를 생성합니다.
Recent text-to-video generation approaches rely on computationally heavy training and require large-scale video datasets. In this paper, we introduce a new task of zero-shot text-to-video generation and propose a low-cost approach (without any training or optimization) by leveraging the power of existing text-to-image synthesis methods (e.g., Stable Diffusion), making them suitable for the video domain. Our key modifications include (i) enriching the latent codes of the generated frames with motion dynamics to keep the global scene and the background time consistent; and (ii) reprogramming frame-level self-attention using a new cross-frame attention of each frame on the first frame, to preserve the context, appearance, and identity of the foreground object. Experiments show that this leads to low overhead, yet high-quality and remarkably consistent video generation. Moreover, our approach is not limited to text-to-video synthesis but is also applicable to other tasks such as conditional and content-specialized video generation, and Video Instruct-Pix2Pix, i.e., instruction-guided video editing. As experiments show, our method performs comparably or sometimes better than recent approaches, despite not being trained on additional video data. Our code will be open sourced at: https://github.com/Picsart-AI-Research/Text2Video-Zero .
연구 동기 및 목표
- 학습 없이 실행 가능한 제로샷 텍스트-투-비디오 생성을 도입한다.
- 사전 학습된 텍스트-투-이미지 확산 모델을 활용해 비디오 시퀀스를 합성한다.
- 잠재 코드의 모션 다이내믹스와 교차 프레임 어텐션을 통해 시간적 일관성을 강제한다.
- 조건부/전문화된 비디오 생성 및 비디오 편집에 대한 광범위한 적용성을 시연한다.
제안 방법
- 프레임의 잠재 코드를 모션 다이내믹스로 강화하여 시간에 따라 전역 장면/배경을 맞춘다.
- 각 프레임이 첫 프레임에 주목하도록 교차 프레임 어텐션을 적용하여 전경의 신원을 보존한다.
- 모션 필드를 사용하여 프레임 간 잠재 표현을 왜곡하고 모션 자유도를 확보하기 위해 다시 순방향 확산(forward diffusion)을 실행한다.
- Stable Diffusion의 self-attention 계층을 교차 프레임 어텐션으로 대체하여 프레임 간 일관성을 유지한다.
- 전경 마스크에 의해 안내되는 첫 프레임의 왜곡된 잠재 코드와 프레임 잠재 코드를 볼록 결합해 배경 매끄럽기를 선택적으로 적용한다.
- 조건부/전문화된 생성을 위한 ControlNet 및 DreamBooth 모델과의 호환성, 그리고 지시 기반 편집을 위한 Video Instruct-Pix2Pix와의 호환성을 시연한다.
- 수정된 잠재 공간에서 DDIM 샘플링을 사용해 비디오 시퀀스를 생성한다.
실험 결과
연구 질문
- RQ1비디오 데이터에 대한 학습이나 미세 조정 없이 제로샷 텍스트-투-비디오 생성을 달성할 수 있는가?
- RQ2모션 인식 잠재 코드와 교차 프레임 어텐션이 비디오 생성에서 시간적 일관성과 전경 신원 보존을 향상시키는가?
- RQ3추가 학습 없이 제로샷 비디오 생성을 조건부, 전문화된 편집 및 지시 기반 편집 시나리오로 확장하는 것이 가능한가?
- RQ4제안된 접근법이 프롬프트에 대한 정렬성과 시간적 안정성 측면에서 기존의 텍스트-투-비디오 방법과 어떻게 비교되는가?
주요 결과
- 본 방법은 학습 없이 텍스트 프롬프트로 시간적으로 일관된 비디오 생성을 달성한다.
- 잠재 코드의 모션 다이내믹스가 전역 장면/배경의 시간적 일관성을 개선한다.
- 교차 프레임 어텐션은 프레임 간 전경 외관과 신원을 보존한다.
- 이 방법은 CLIP 기반 정렬에서 CogVideo와 경쟁력 있게 수행한다(31.19 대 29.63).
- 재학습 없이 조건부 및 전문화된 비디오 생성과 Video Instruct-Pix2Pix를 가능하게 한다.
- 다양한 프롬프트와 가이던스에서 높은 텍스트-비디오 정렬 및 시간적 일관성을 보이는 질적 결과를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.