QUICK REVIEW

[논문 리뷰] Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator

Hanzhuo Huang, Yufan Feng|arXiv (Cornell University)|2023. 09. 25.

Generative Adversarial Networks and Image Synthesis인용 수 11

한 줄 요약

Free-Bloom은 LLM을 디렉터로 사용하여 의미 프레임 시퀀스를 생성하고, 사전 학습된 Latent Diffusion Model (LDM)을 애니메이터로 활용하여 고품질의 시간적으로 일관된 비디오를 생성하는 제로샷, 학습 프리 파이프라인이며, 프레임 레이트 향상을 위한 학습 없는 듀얼-패스 인터폴레이션을 포함합니다.

ABSTRACT

Text-to-video is a rapidly growing research area that aims to generate a semantic, identical, and temporal coherence sequence of frames that accurately align with the input text prompt. This study focuses on zero-shot text-to-video generation considering the data- and cost-efficient. To generate a semantic-coherent video, exhibiting a rich portrayal of temporal semantics such as the whole process of flower blooming rather than a set of "moving images", we propose a novel Free-Bloom pipeline that harnesses large language models (LLMs) as the director to generate a semantic-coherence prompt sequence, while pre-trained latent diffusion models (LDMs) as the animator to generate the high fidelity frames. Furthermore, to ensure temporal and identical coherence while maintaining semantic coherence, we propose a series of annotative modifications to adapting LDMs in the reverse process, including joint noise sampling, step-aware attention shift, and dual-path interpolation. Without any video data and training requirements, Free-Bloom generates vivid and high-quality videos, awe-inspiring in generating complex scenes with semantic meaningful frame sequences. In addition, Free-Bloom is naturally compatible with LDMs-based extensions.

연구 동기 및 목표

데이터 및 비용 효율적인 제로샷 텍스트-투-비디오 생성을 고무한다.
LLMs를 활용하여 의미적으로 일관된 프레임 프롬프트 시퀀스를 생성한다.
사전 학습된 LDM을 적응시켜 학습 없이 시간적으로 및 동일하게 일관된 비디오 프레임을 생성한다.
보간 및 어텐션 메커니즘을 도입하여 시간 해상도와 프레임 충실도를 향상시킨다.

제안 방법

입력 텍스트 프롬프트로부터 프레임 프롬프트의 연속 시퀀스를 생성하기 위해 LLM을 디렉터로 사용한다.
연속 프레임 간의 결합 노이즈 샘플링과 일관된 프레임 생성을 위한 단계 인식 어텐션 이동을 가능하게 하도록 잠재 확산 모델을 수정한다.
잠재 공간에서 학습-free 듀얼-패스 보간을 구현하여 의미 및 연속성을 보존한 중간 프레임을 생성한다.
잡음 제거가 진행되면서 주의(attention)를 맥락상(첫 번째/이전) 프레임에서 현재 프레임으로 전이시키는 단계 인식 어텐션 시프트를 적용한다.
DDIM 반전 및 LDM 기반 확장을 통한 개인화 및 이미지-에서-비디오 확장으로 선택적으로 확장한다.

실험 결과

연구 질문

RQ1제로샷 파이프라인이 비디오 데이터나 학습 없이 LLM에 의해 구동되는 의미적으로 일관되고 시간적으로 일관된 비디오를 생성할 수 있는가?
RQ2어떻게 LDM을 텍스트 프롬프트 시퀀스 하에서 동일한 일관성과 시간적 일치를 갖는 비디오 프레임을 생성하도록 수정할 수 있는가?
RQ3학습 없는 듀얼-패스 보간이 의미 일관성과 함께 시간적 프레임 속도를 향상시키는가?
RQ4공동 프레임 노이즈 샘플링과 단계 인식 어텐션이 비디오 품질과 일관성에 미치는 영향은 무엇인가?

주요 결과

방법	학습 프리	CLIP 지표 ↑	충실도 ↑	시간성 ↑	의미성 ↑	랭크 ↓
VideoFusion		0.483	3.436	3.889	3.267	2.317
LVDM	-	0.480	3.289	3.650	3.242	2.567
T2V-Zero	✓	0.479	3.486	2.783	3.025	3.033
Ours	✓	0.477 / 0.482*	4.133	3.267	3.867	2.083

Free-Bloom은 비디오 데이터나 학습 없이도 프롬프트에서 고품질의 의미적으로 의미 있는 비디오를 생성할 수 있다.
공동 노이즈 샘플링과 단계 인식 어텐션 시프트가 프레임 간의 시간적 및 동일한 일관성을 향상시킨다.
듀얼-패스 보간은 맥락적이고 의미론적 콘텐츠를 보존하면서 시간적 해상도를 향상시킨다.
정량적 결과는 제로샷 및 학습 기반 대조군에 비해 CLIP 기반 지표가 경쟁적이고 사용자 연구 순위가 우호적임을 보여준다.
본 방법은 단일 프레임의 충실도를 유지하는 동시에 일관된 서사 시퀀스를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.