Skip to main content
QUICK REVIEW

[논문 리뷰] Predicting Video with VQVAE

Jacob Walker, Ali Razavi|arXiv (Cornell University)|2021. 03. 02.
Generative Adversarial Networks and Image Synthesis참고 문헌 59인용 수 26
한 줄 요약

논문은 VQ-VAE를 사용해 비디오를 이산 잠재로 압축하고 PixelCNN 기반의 자기회귀 모델로 미래 프레임을 예측하는 두 단계 접근법을 제안합니다. 이는 Kinetics-600과 같은 unconstrained 데이터에서 고해상도 비디오 예측이 가능하게 합니다.

ABSTRACT

In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.

연구 동기 및 목표

  • VQ-VAE를 적용해 비디오를 계층적 이산 잠재 표현으로 압축하는 것을 보여준다.
  • 과거 프레임에 조건화된 시공간 자기회귀 사전(PixelCNN with attention)을 개발하여 상위 잠재 층을 예측한다.
  • 높은 해상도에서 대규모 무제약 비디오 데이터에 대한 예측 품질을 보여준다.
  • Kinetics-600과 같은 대규모 데이터셋에서 기존 비디오 예측 방법과 정량 지표 및 인간 평가를 비교한다.

제안 방법

  • 256x256x16 입력을 각각 512 코드로 양자화된 상위(고수준) 및 하위(저수준) 잠재로 축소하는 256x256x16 입력의 계층적 VQ-VAE를 사용해 상위(상위) 및 하위 격자를 32x32x4 및 64x64x8로 변환한다.
  • 상위 잠재 층(32x32x4)에서 작동하는 시계열 인지적 다중-헤드 자기주 attention을 갖는 인과적 PixelCNN으로 상위 프라이어를 학습한다.
  • 하위 프라이어를 학습한다: 상위 잠재의 창(window) 및 과거 하위 잠재에 조건화된 2D PixelCNN으로 더 세밀한 디테일(64x64x2 입력)을 생성한다.
  • 잠재 계층을 이용한 거칠게부터 섬세하게 발전시키는 방식으로 전체 256x256x16 비디오를 생성하는 제너레이티브 모델을 분해한다.
  • VQ-VAE 학습 시 코드북 붕괴를 방지하고 상위 잠재 층의 활용을 촉진하기 위해 마스크를 사용한다.
  • 64x64 및 256x256 해상도에서 Fréchet Video Distance(FVD)로 평가하고, 크라우드소싱 인간 판단으로 보완한다.

실험 결과

연구 질문

  • RQ1제한 없는 비디오를 크게 축소된 잠재 공간으로 압축하는 VQ-VAE의 가능성은 품질 저하 없이 달성될 수 있는가?
  • RQ2이산 잠재에 작용하는 자기회귀 프라이어가 고해상도에서 미래 프레임을 효과적으로 모델링할 수 있는가?
  • RQ3Kinetics-600 같은 대규모 데이터셋에서 비디오 예측 방법과 비교해 VQ-VAE+PixelCNN 접근법이 객관적 지표와 인간 판단에서 어떤 차이를 보이는가?

주요 결과

방법FVD 점수(낮을수록 좋음)
Video Transformer (64x64)170 ± 5
DVD-GAN-FP (64x64)69.15 ± 1.16
TRIVD-GAN-FP (64x64)25.74 ± 0.66
Video VQ-VAE (64x64)64.30 ± 2.04
Video VQ-VAE FVD* (64x64)54.30 ± 3.49
Video VQ-VAE (256x256)129.85 ± 1.64
Video VQ-VAE FVD* (256x256)82.45 ± 1.16
  • VQ-VAE는 256x256x16 비디오를 원시 픽셀보다 98% 이상 적은 비트를 필요로 하는 공간으로 압축한다.
  • 상위 및 하위 PixelCNN 프라이어가 잠재 공간을 모델링하여 과거 프레임에 조건화된 미래 프레임을 생성한다.
  • Kinetics-600에서 VideoVQ-VAE는 기존 방법과 비교해 정량적으로 경쟁력 있는 결과와 인간 평가에서 우호적인 결과를 달성한다.
  • 정량적 결과는 GAN 기반 접근 방식이 다른 설정에서 더 나은 메트릭을 보이는 경우에도 VideoVQ-VAE 샘플에 대해 인간의 선호도가 더 높게 나타남을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.