[논문 리뷰] VDT: General-purpose Video Diffusion Transformers via Mask Modeling
VDT(Video Diffusion Transformer)를 도입합니다. 이는 템포럴/스페셜 주의 집중과 통합 공간-시간 마스크 모델링 메커니즘을 활용하여 무조건 생성, 예측, 보간, 애니메이션 및 완성을 처리하는 순수 트랜스포머 기반 비디오 확산 모델입니다.
This work introduces Video Diffusion Transformer (VDT), which pioneers the use of transformers in diffusion-based video generation. It features transformer blocks with modularized temporal and spatial attention modules to leverage the rich spatial-temporal representation inherited in transformers. We also propose a unified spatial-temporal mask modeling mechanism, seamlessly integrated with the model, to cater to diverse video generation scenarios. VDT offers several appealing benefits. 1) It excels at capturing temporal dependencies to produce temporally consistent video frames and even simulate the physics and dynamics of 3D objects over time. 2) It facilitates flexible conditioning information, \eg, simple concatenation in the token space, effectively unifying different token lengths and modalities. 3) Pairing with our proposed spatial-temporal mask modeling mechanism, it becomes a general-purpose video diffuser for harnessing a range of tasks, including unconditional generation, video prediction, interpolation, animation, and completion, etc. Extensive experiments on these tasks spanning various scenarios, including autonomous driving, natural weather, human action, and physics-based simulation, demonstrate the effectiveness of VDT. Additionally, we present comprehensive studies on how \model handles conditioning information with the mask modeling mechanism, which we believe will benefit future research and advance the field. Project page: https:VDT-2023.github.io
연구 동기 및 목표
- 변혁기(트랜스포머)를 확산 기반 비디오 생성의 백본으로 사용하는 것을 개척한다.
- 다양한 비디오 작업을 지원하기 위한 통합 공간-시간 마스크 모델링 메커니즘을 개발한다.
- 비디오 생성에서 다양한 입력 길이/모드를 유연하게 조건화하고 효율적으로 처리하도록 한다.
- 무조건 생성, 비디오 예측, 보간 및 완성에서 다수의 데이터셋에 걸쳐 강력한 성능을 입증한다.
제안 방법
- 각 VDT 블록 내에서 시간적 및 공간적 주의 집중을 갖춘 순수 트랜스포머 아키텍처를 사용한다.
- 사전 학습된 VAE 토크나이저를 통해 비디오를 잠재 공간으로 투영하여 계산량을 줄인다.
- 시간 위치 임베딩과 공간 위치 임베딩을 도입하여 시공간 정보를 학습한다.
- 트랜스포머 블록에 확산 시간 정보를 주입하기 위한 적응형 그룹 노멀라이제이션을 적용한다.
- 적응형 레이어 노멀라이제이션, 교차 주의, 토큰 결합 등 비디오 예측에 대한 조건 부여 체계를 탐구한다.
- 여러 작업을 위한 조건부 프레임과 노이즈를 혼합하는 통합 공간-시간 마스크 모델링 메커니즘을 도입한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 확산 모델이 고품질의 시간적으로 일관된 비디오 생성을 위해 시간 의존성을 효과적으로 포착할 수 있는가?
- RQ2조건 정보가 무조건 생성, 예측, 보간, 애니메이션, 완성 등 다양한 비디오 생성 작업에서 어떻게 통합될 수 있는가?
- RQ3통합 공간-시간 마스크 모델링 접근 방식이 단일 모델로 여러 비디오 생성 작업을 아키텍처 변경 없이 수행하게 하는가?
- RQ4비디오 예측에서 어떤 조건화 전략이 수렴 속도와 샘플 품질(FVD/SSIM)을 최적화하는가?
- RQ5VDT가 표준 비디오 벤치마크에서 최신 확산 및 다른 생성 방법과 비교하여 어떤 성능 차이를 보이는가?
주요 결과
- VDT는 무조건적 비디오 생성(UCF-101에서)에서 최첨단 방법과 비교 가능한 또는 우수한 성능을 달성하고, 다수의 GAN 및 확산 기반 기준선보다 우수한 성능을 보인다.
- 비디오 예측에 대한 조건 부여 전략으로 토큰 결합이 탐색된 구성 중 가장 빠른 수렴 속도와 최고의 샘플 품질(FVD/SSIM)을 제공한다.
- 통합 공간-시간 마스크 모델링은 VDT가 단일 프레임워크 내에서 무조건 생성, 양방향 예측, 임의 보간, 이미지-비디오 생성, 공간-시간 완성과 같은 다양한 작업을 처리하도록 한다.
- VDT는 도시스케이프(Cityscapes) 및 Physion 데이터셋에서 비디오 예측에 대한 강력한 시간 모델링을 보여 기준선과 동등하거나 능가하며 색상 일관성과 운동 연속성을 유지한다.
- Physion에서 VDT는 물리적 충돌 예측에 대한 VQA 정확도를 씬 중심 방식보다 높게 달성하며(65.3% 대 최대 63.1%), robuste한 물리-비디오 예측 능력을 보여준다.
- 이미지 사전학습 후 공동 학습으로 엔드 투 엔드 공간-시간 학습보다 효율성과 성능이 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.