QUICK REVIEW

[논문 리뷰] ModelScope Text-to-Video Technical Report

Jiuniu Wang, Hangjie Yuan|arXiv (Cornell University)|2023. 08. 12.

Generative Adversarial Networks and Image Synthesis인용 수 46

한 줄 요약

ModelScopeT2V는 확장된 확산 기반의 텍스트-투-비디오 모델로, Stable Diffusion 기반의 시공간 블록과 다프레임 학습을 통해 텍스트 프롬프트에서 일관된 비디오를 생성합니다. 경쟁력 있는 정량적 결과를 달성하고 향후 비디오 합성 연구를 위한 실용적 기준선을 제공합니다.

ABSTRACT

This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.

연구 동기 및 목표

개방적이고 접근 가능한 확산 기반 텍스트-투-비디오 생성을 촉진하고 비디오 합성을 위한 실용적 기준선을 확립한다.
텍스트-투-이미지 확산 프레임워크를 비디오 생성에 필요한 시간적 능력으로 확장한다.
이미지-텍스트 및 비디오-텍스트 데이터를 활용하여 의미 이해와 시간적 역학을 풍부하게 한다.
다양한 프레임 수와 데이터셋에서 학습을 안정화하는 학습 전략을 제공한다.

제안 방법

잠재 확산을 시공간 블록으로 확장하여 공동 시공간 모델링을 수행한다.
CLIP ViT-H/14 인코더를 사용한 교차 주의 집중을 통해 언어-시각 정렬을 달성한다.
고해상도 데이터를 관리하기 위해 VQGAN 인코딩/디코딩이 가능한 잠재 공간에서 작동한다.
이미지-텍스트와 비디오-텍스트 데이터를 모두 활용하는 다프레임 학습 파이프라인으로 의미 범위를 넓힌다.
DDPM 및 DDIM 샘플링으로 학습하며, 시간적 컨볼루션과 시간적 주의 집중을 사용해 모션을 포착한다.

실험 결과

연구 질문

RQ1확산 기반 모델을 텍스트 프롬프트로부터 일관된 비디오 시퀀스를 생성하도록 어떻게 확장할 수 있는가?
RQ2이미지-텍스트와 비디오-텍스트 학습 데이터를 결합하는 것이 비디오 합성의 의미적 풍부함과 시간적 일관성을 향상시키는가?
RQ3시공간 블록의 어떤 구성 요소와 학습 전략이 표준 벤치마크에서 경쟁력 있는 비디오 생성 품질을 제공하는가?

주요 결과

모델	FID-vid (↓)	FVD (↓)	CLIPSIM (↑)
NÜWA	47.68	-	0.2439
CogVideo (Chinese)	24.78	-	0.2614
CogVideo (English)	23.59	1294	0.2631
MagicVideo	-	1290	-
Video LDM	-	-	0.2929
Make-A-Video	13.17	-	0.3049
ModelScopeT2V (ours)	11.09	550	0.2930

ModelScopeT2V는 MSR-VTT에서 나열된 기준선 대비 최상의 FID-vid 및 FVD 점수를 달성한다 (FID-vid 11.09, FVD 550).
CLIPSIM 점수 0.2930은 프롬프트와의 강한 의미 정렬을 나타내며 Make-A-Video와 경쟁적이다.
시공간 블록 내 시간적 컨볼루션과 시간적 주의 집중이 모두 시간 모델링에 이득을 주어 모션 현실감을 개선한다.
모델은 약 1.7빌리언 매개변수로 구성되며, 그 중 39%가 시간적 능력에 할당되어 있다( UNet의 552M 중 1,345M).
제로샷 MSR-VTT 평가에서 태스크 특화 미세조정 없이도 경쟁력 있는 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.