[논문 리뷰] Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
Show-1은 픽셀 기반 키프레임 생성과 잠재 확산 업스케일링을 결합하여 추론 메모리 사용량을 줄인 고해상도 텍스트 정렬 비디오를 생성합니다. 두 단계의 업스케일링 파이프라인으로 저비용으로도 강력한 텍스트-비디오 정렬을 달성합니다.
Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.
연구 동기 및 목표
- 텍스트-비디오 정렬과 시각적 충실도 사이의 균형을 맞추기 위해 픽셀 기반 확산 모델과 잠재 기반 확산 모델의 결합을 고안한다.
- 저해상도 픽셀 기반 키프레임, 시간 보간 및 두 단계 초해상화를 갖춘 거친-정밀 비디오 생성 파이프라인을 개발한다.
- 추론 시 계산 비용을 줄이면서 텍스트-비디오 정렬을 보존하거나 개선한다.
- 잠재 기반 VDM의 전문가 번역이 고품질의 고해상도 정제를 가능하게 함을 보여준다.
- 표준 벤치마크(UCF-101, MSR-VTT)와 인간 평가를 통해 접근법을 검증한다.
제안 방법
- 강한 텍스트-비디오 정렬을 달성하는 키프레임을 생성하기 위해 저해상도에서 픽셀 기반 Video UNet를 사용한다.
- 정렬을 유지하면서 시간 해상도를 높이기 위해 픽셀 확산과 함께 시간 보간 모듈을 도입한다.
- 두 단계 초해상화를 적용한다: (i) 중간 해상도까지의 픽셀 기반 업샘플링, (ii) 낮은 비용으로 세부 묘사를 향상시키기 위한 고해상도 전문 번역으로의 잠재 기반 업스케일.
- 고해상도 정제를 위해 잠재 기반 VDM을 사용하고, 전문가 번역가로서 역할하기 위해 타임스텝 0–900으로 훈련을 제한한다.
- 모션을 모델링하기 위해 2D UNet 블록에 시간적 합성신경망(temporal convolutions)과 시간적 주의(attention) 계층을 통합한다.
- WebVid-10M에서 학습하고 UCF-101 및 MSR-VTT 벤치마크에서 평가한다.
실험 결과
연구 질문
- RQ1저해상도 키프레임에 픽셀 기반 확산을, 고해상도 업스케일링에 잠재 확산을 활용하는 하이브리드 모델이 더 낮은 계산 비용으로 더 우수한 텍스트-비디오 정렬과 시각적 충실도를 달성할 수 있는가?
- RQ2다른 단계(저해상도 키프레임, 보간, 업스케일)에서 픽셀 기반 모듈과 잠재 기반 모듈의 사용이 텍스트-비디오 정렬 및 품질에 어떤 영향을 미치는가?
- RQ3잠재 기반 VDM에서 전문가 번역(0–900 타임스텝)이 표준 0–1000 타임스텝에 비해 고해상도 정제 성능을 향상시키는가?
- RQ4최첨단 방법과 비교했을 때 Show-1은 표준 벤치마크(UCF-101, MSR-VTT)에서 어떻게 수행하는가?
주요 결과
- Show-1은 추론 중 15G GPU 메모리에서 강한 텍스트-비디오 정렬과 높은 시각적 품질을 달성한다.
- MSR-VTT에서 Show-1은 FID-vid(13.08)와 FVD(538)에서 최고를 달성하고 CLIPSIM은 0.3072이다.
- UCF-101에서 Show-1은 IS(35.42)와 FVD(394.46)에서 경쟁력 있는 성능을 보인다.
- 특정 제거 실험은 저해상도 픽셀 기반 키프레임 + 고해상도 잠재 번역이 CLIPSIM을 최상으로 만들고 모든 픽셀 기초나 모든 잠재 기초 대비 계산 비용이 더 낮음을 보여준다.
- 인간 평가에서 비디오 품질과 텍스트-비디오 정렬 측면에서 Show-1이 ModelScope와 ZeroScope보다 더 우수하다는 선호가 다수의 지표에서 나타났다.
- 조합별 제거 실험은 픽셀 기반 저해상도 + 잠재 기반 고해상도가 정렬과 효율성의 최적 트레이드오프임을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.