QUICK REVIEW

[論文レビュー] Diffusion Models for Video Prediction and Infilling

Tobias Höppe, Arash Mehrjou|arXiv (Cornell University)|Jun 15, 2022

Generative Adversarial Networks and Image Synthesis被引用数 50

ひとこと要約

RaMViDは拡散モデルを3D畳み込みとランダムマスキングを用いて動画へ拡張し、単一のアーキテクチャで同時に動画予測、インフィリング、アップサンプリングを実現し、複数のベンチマークで競争力のある結果を示します。

ABSTRACT

Predicting and anticipating future outcomes or reasoning about missing information in a sequence are critical skills for agents to be able to make intelligent decisions. This requires strong, temporally coherent generative capabilities. Diffusion models have shown remarkable success in several generative tasks, but have not been extensively explored in the video domain. We present Random-Mask Video Diffusion (RaMViD), which extends image diffusion models to videos using 3D convolutions, and introduces a new conditioning technique during training. By varying the mask we condition on, the model is able to perform video prediction, infilling, and upsampling. Due to our simple conditioning scheme, we can utilize the same architecture as used for unconditional training, which allows us to train the model in a conditional and unconditional fashion at the same time. We evaluate RaMViD on two benchmark datasets for video prediction, on which we achieve state-of-the-art results, and one for video generation. High-resolution videos are provided at https://sites.google.com/view/video-diffusion-prediction.

研究の動機と目的

拡散モデルを用いた予測とインフィリングを通じて、時間的一貫性のある動画生成の動機づけと実現を図る。
unconditional/conditional/mixed trainingを統合する条件付けメカニズムとして、ランダムマスキングを導入する。
BAIRでの最先端の性能を示し、Kinetics-600およびUCF-101での予測とインフィリングタスク全般において強力な結果を示す。

提案手法

3D畳み込みを用いた拡散モデルアーキテクチャでRandom-Mask Video Diffusion (RaMViD)を導入する。
無条件フレームをマスキングし、ネットワーク入力に条件付きフレームを注入して任意のフレーム集合を条件づける。
同じアーキテクチャ内で条件付き・無条件学習を可能とするようランダム化されたマスキングで訓練する。
動画モデリングのために、解像度16と8で自己注意を用いたU-Netと線形拡散スケジュールを採用する。
未知のフレームだけを再構成する条件付き拡散目的を定式化し、条件付けフレームを固定したまま未知フレームを再構成する。
Cを条件付けセットとして選択し、未知フレームUをサンプリングすることで、予測、インフィリング、アップサンプリングの推論を可能にする。

実験結果

リサーチクエスチョン

RQ1拡散モデルは予測とインフィリングの両方のために動画領域へ効果的に拡張できるのか。
RQ2ランダム化されたマスキングは、拡散サンプリング中に条件付きフレームと無条件フレームを調和させる、単純で効果的な条件付けメカニズムを提供するのか。
RQ3条件付けマスキング設定の違い（条件付きフレームの数と位置）が予測とインフィリングの性能にどのような影響を与えるのか。
RQ4 RaMViDは従来手法と比較して、標準的な動画予測および完了ベンチマークでどの程度の性能を示すのか。
RQ5無条件動画生成と自己回帰的長シーケンスサンプリングは可能なのか。

主な発見

RaMViDは条件付けフレームを与えた場合の11–15フレームを予測する際のBAIRにおける最先端のFréchet Video Distance (FVD)を達成する。
RaMViDは予測タスクにおいてKinetics-600で競合手法と同等またはそれを上回る性能を示し、パラメータ数は約308M程度で競争力を保つ。
無条件生成はRaMViDを用いてデータセットをまたいで実現可能であり、無条件率pUを増やすとデータセットの複雑さに応じて性能が向上する場合もあれば低下する場合もある。
開始と終了フレームで条件付けを行うと、ビデオのインフィリングが有効になり、条件設定に関係なくFVDは競争力を示す。
自己回帰的サンプリングは訓練の範囲を超えたシーケンス長を延長できるが、長いシーケンスでは品質が徐々に低下する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。