QUICK REVIEW

[論文レビュー] Predicting Video with VQVAE

Jacob Walker, Ali Razavi|arXiv (Cornell University)|Mar 2, 2021

Generative Adversarial Networks and Image Synthesis参考文献 59被引用数 26

ひとこと要約

この論文はVQ-VAEを用いて動画を離散潜在表現に圧縮し、PixelCNNベースの自己回帰モデルで将来のフレームを予測する2段階アプローチを提案し、Kinetics-600のような制約のないデータ上で高解像度の動画予測を実現する。

ABSTRACT

In recent years, the task of video prediction-forecasting future video given past video frames-has attracted attention in the research community. In this paper we propose a novel approach to this problem with Vector Quantized Variational AutoEncoders (VQ-VAE). With VQ-VAE we compress high-resolution videos into a hierarchical set of multi-scale discrete latent variables. Compared to pixels, this compressed latent space has dramatically reduced dimensionality, allowing us to apply scalable autoregressive generative models to predict video. In contrast to previous work that has largely emphasized highly constrained datasets, we focus on very diverse, large-scale datasets such as Kinetics-600. We predict video at a higher resolution on unconstrained videos, 256x256, than any other previous method to our knowledge. We further validate our approach against prior work via a crowdsourced human evaluation.

研究の動機と目的

VQ-VAEを用いて動画を階層的な離散潜在表現に圧縮することを実証する。
過去フレームを条件として将来の潜在を予測する時空自己回帰事前分布（注意機構を備えたPixelCNN）を開発する。
高解像度で大規模・制約の少ない動画データでの予測品質を示す。
定量的指標とヒューマン評価を用いて既存の動画予測手法と比較する。

提案手法

階層的VQ-VAEを用いて、256x256x16入力をそれぞれ32x32x4のトップ潜在と64x64x8のボトム潜在に圧縮し、各潜在は512コードに量子化する。
トップ潜在層（32x32x4）上で動作する因果的・時系列対応のPixelCNNを用いたマルチヘッド自己注意機構を備えたトップ事前分布を訓練する。
トップ潜在のウィンドウと過去のボトム潜在を条件とする2D PixelCNNを訓練し、微細なディテールを生成する（64x64x2入力）。
潜在階層を活用して粗さから細部へと生成する階層的生成モデルを分解し、潜在から完全な256x256x16動画を生成する。
VQ-VAE訓練時にマスクを用いてコードブックの崩壊を防ぎ、トップ潜在層の活用を促進する。
64x64および256x256解像度でFréchet Video Distance (FVD)を用いて評価し、クラウドソーシングによる人間評価を補足とする。

実験結果

リサーチクエスチョン

RQ1階層的VQ-VAEは、制約の少ない動画を大幅に圧縮した潜在空間へ変換しても、品質の著しい低下を招かずに済むか。
RQ2離散潜在上で動作する自己回帰事前分布は、将来の動画フレームを高解像度で効果的にモデリングできるか。
RQ3VQ-VAE+PixelCNNアプローチは、Kinetics-600のような大規模データセットに対して、定量指標と人間評価の点で既存の動画予測手法とどう比較されるか。

主な発見

手法	FVDスコア（小さいほど良い）
Video Transformer (64x64)	170 ± 5
DVD-GAN-FP (64x64)	69.15 ± 1.16
TRIVD-GAN-FP (64x64)	25.74 ± 0.66
Video VQ-VAE (64x64)	64.30 ± 2.04
Video VQ-VAE FVD* (64x64)	54.30 ± 3.49
Video VQ-VAE (256x256)	129.85 ± 1.64
Video VQ-VAE FVD* (256x256)	82.45 ± 1.16

VQ-VAEは256x256x16動画を生のピクセルより98%以上少ないビット数で表現可能な空間に圧縮する。
トップおよびボトムのPixelCNN事前分布は潜在空間をモデル化し、過去フレームを条件として将来のフレームを生成する。
Kinetics-600では、VideoVQ-VAEは定量的に競争力があり、人間評価でも優れた結果を得ている。
定量的結果は、他の設定でGANベースのアプローチが有利である指標もある中、VideoVQ-VAEサンプルに対する人間の好みが上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。