QUICK REVIEW

[논문 리뷰] Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

David Junhao Zhang, Jay Zhangjie Wu|arXiv (Cornell University)|2023. 09. 27.

Generative Adversarial Networks and Image Synthesis인용 수 15

한 줄 요약

Show-1은 픽셀 기반 키프레임 생성과 잠재 확산 업스케일링을 결합하여 추론 메모리 사용량을 줄인 고해상도 텍스트 정렬 비디오를 생성합니다. 두 단계의 업스케일링 파이프라인으로 저비용으로도 강력한 텍스트-비디오 정렬을 달성합니다.

ABSTRACT

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.

연구 동기 및 목표

텍스트-비디오 정렬과 시각적 충실도 사이의 균형을 맞추기 위해 픽셀 기반 확산 모델과 잠재 기반 확산 모델의 결합을 고안한다.
저해상도 픽셀 기반 키프레임, 시간 보간 및 두 단계 초해상화를 갖춘 거친-정밀 비디오 생성 파이프라인을 개발한다.
추론 시 계산 비용을 줄이면서 텍스트-비디오 정렬을 보존하거나 개선한다.
잠재 기반 VDM의 전문가 번역이 고품질의 고해상도 정제를 가능하게 함을 보여준다.
표준 벤치마크(UCF-101, MSR-VTT)와 인간 평가를 통해 접근법을 검증한다.

제안 방법

강한 텍스트-비디오 정렬을 달성하는 키프레임을 생성하기 위해 저해상도에서 픽셀 기반 Video UNet를 사용한다.
정렬을 유지하면서 시간 해상도를 높이기 위해 픽셀 확산과 함께 시간 보간 모듈을 도입한다.
두 단계 초해상화를 적용한다: (i) 중간 해상도까지의 픽셀 기반 업샘플링, (ii) 낮은 비용으로 세부 묘사를 향상시키기 위한 고해상도 전문 번역으로의 잠재 기반 업스케일.
고해상도 정제를 위해 잠재 기반 VDM을 사용하고, 전문가 번역가로서 역할하기 위해 타임스텝 0–900으로 훈련을 제한한다.
모션을 모델링하기 위해 2D UNet 블록에 시간적 합성신경망(temporal convolutions)과 시간적 주의(attention) 계층을 통합한다.
WebVid-10M에서 학습하고 UCF-101 및 MSR-VTT 벤치마크에서 평가한다.

실험 결과

연구 질문

RQ1저해상도 키프레임에 픽셀 기반 확산을, 고해상도 업스케일링에 잠재 확산을 활용하는 하이브리드 모델이 더 낮은 계산 비용으로 더 우수한 텍스트-비디오 정렬과 시각적 충실도를 달성할 수 있는가?
RQ2다른 단계(저해상도 키프레임, 보간, 업스케일)에서 픽셀 기반 모듈과 잠재 기반 모듈의 사용이 텍스트-비디오 정렬 및 품질에 어떤 영향을 미치는가?
RQ3잠재 기반 VDM에서 전문가 번역(0–900 타임스텝)이 표준 0–1000 타임스텝에 비해 고해상도 정제 성능을 향상시키는가?
RQ4최첨단 방법과 비교했을 때 Show-1은 표준 벤치마크(UCF-101, MSR-VTT)에서 어떻게 수행하는가?

주요 결과

Show-1은 추론 중 15G GPU 메모리에서 강한 텍스트-비디오 정렬과 높은 시각적 품질을 달성한다.
MSR-VTT에서 Show-1은 FID-vid(13.08)와 FVD(538)에서 최고를 달성하고 CLIPSIM은 0.3072이다.
UCF-101에서 Show-1은 IS(35.42)와 FVD(394.46)에서 경쟁력 있는 성능을 보인다.
특정 제거 실험은 저해상도 픽셀 기반 키프레임 + 고해상도 잠재 번역이 CLIPSIM을 최상으로 만들고 모든 픽셀 기초나 모든 잠재 기초 대비 계산 비용이 더 낮음을 보여준다.
인간 평가에서 비디오 품질과 텍스트-비디오 정렬 측면에서 Show-1이 ModelScope와 ZeroScope보다 더 우수하다는 선호가 다수의 지표에서 나타났다.
조합별 제거 실험은 픽셀 기반 저해상도 + 잠재 기반 고해상도가 정렬과 효율성의 최적 트레이드오프임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.