Skip to main content
QUICK REVIEW

[論文レビュー] VideoGPT: Video Generation using VQ-VAE and Transformers

Wilson Yan, Yunzhi Zhang|arXiv (Cornell University)|Apr 20, 2021
Generative Adversarial Networks and Image Synthesis参考文献 74被引用数 144
ひとこと要約

VideoGPT は VQ-VAE を用いて動画を離散潜在表現に圧縮し、GPT-スタイルの自己回帰トランスフォーマを用いてそれら潜在表現をモデル化することで、シンプルで拡張性のあるパイプラインで競争力のある動画生成を実現します。

ABSTRACT

We present VideoGPT: a conceptually simple architecture for scaling likelihood based generative modeling to natural videos. VideoGPT uses VQ-VAE that learns downsampled discrete latent representations of a raw video by employing 3D convolutions and axial self-attention. A simple GPT-like architecture is then used to autoregressively model the discrete latents using spatio-temporal position encodings. Despite the simplicity in formulation and ease of training, our architecture is able to generate samples competitive with state-of-the-art GAN models for video generation on the BAIR Robot dataset, and generate high fidelity natural videos from UCF-101 and Tumbler GIF Dataset (TGIF). We hope our proposed architecture serves as a reproducible reference for a minimalistic implementation of transformer based video generation models. Samples and code are available at https://wilson1yan.github.io/videogpt/index.html

研究の動機と目的

  • 自然な動画生成へスケール可能な尤度ベースの自己回帰モデルかを調査する。
  • 時空間の複雑さを削減するために離散化された潜在空間(VQ-VAE)の使用を検討する。
  • 軸方向アテンションと潜在空間設計が動画のリアリズムと忠実度に与える影響を評価する。
  • 条件付きおよび無条件の動画生成能力を実証する。
  • 再現性の高い最小限のトランスフォーマーベースの動画生成を導くアブレーションを提供する。

提案手法

  • Train a VQ-VAE with 3D convolutions and axial attention to learn downsampled discrete latents of videos.
  • Model the latent sequence autoregressively with a GPT-like transformer using spatio-temporal position encodings.
  • Use learned cross-attention or conditional norms for action/class conditioning of the prior.
  • Decode the latent samples back to full-resolution video via the VQ-VAE decoder.
  • Train with maximum likelihood and apply dropout for regularization in the prior.

実験結果

リサーチクエスチョン

  • RQ1Can VideoGPT generate high-fidelity videos on real datasets like BAIR, UCF-101, and TGIF?
  • RQ2How do architectural choices (axial attention, latent size, codebook count, transformer depth) affect quality?
  • RQ3Is the approach competitive with state-of-the-art GANs for video generation?
  • RQ4What is the effect of conditioning mechanisms on conditional video generation?

主な発見

手法FVD(下向き)
VideoGPT (ours)103.3
TrIVD-GAN-FP103.3
Video Transformer94±2
DVD-GAN-FP109.8
SV2P262.5
LVT125.8
SAVP116.4
IS on UCF-101: VideoGPT24.69±0.30
IS on DVD-GAN32.97±1.7
TGIF samples (uncond)-
  • VideoGPT は BAIR で FVD が 103.3(TrIVD-GAN-FP の 103.3 と同等)、Video Transformer で 94±2、GAN ベースの手法と競合的な品質を示す。
  • Unconditional VideoGPT の UCF-101 のサンプルは IS 24.69±0.30、いくつかのベースラインと競合的だが DVD-GAN の 32.97±1.7 には及ばない。
  • 軸方向アテンションのアブレーションは BAIR(VQ-VAE)で NMSE を 0.0041 から 0.0033、FVD を 15.3 から 14.9 に改善。
  • より大きな prior ネットワーク容量(最大 8-16 層のトランスフォーマー)が BAIR で FVD とサンプル品質を改善。
  • 最適な潜在構成は空間-時間のダウンサンプリングを約 8×32×32 とした場合に最高のサンプル品質を発揮し、再構成忠実度を維持。
  • 単一の VQ-VAE コードブックを使用する方が複数コードブックの場合よりもサンプル品質が高いことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。