QUICK REVIEW

[論文レビュー] Generating Videos with Scene Dynamics

Carl Vondrick, Hamed Pirsiavash|arXiv (Cornell University)|Sep 8, 2016

Generative Adversarial Networks and Image Synthesis参考文献 34被引用数 848

ひとこと要約

本論文は、ラベルなしの映像から短い64x64カラー動画（32フレーム）を生成する二流のGANを訓練し、前景の動きと静止背景を分離して、行動認識のための有用な無監督表現を示します。

ABSTRACT

We capitalize on large amounts of unlabeled video in order to learn a model of scene dynamics for both video recognition tasks (e.g. action classification) and video generation tasks (e.g. future prediction). We propose a generative adversarial network for video with a spatio-temporal convolutional architecture that untangles the scene's foreground from the background. Experiments suggest this model can generate tiny videos up to a second at full frame rate better than simple baselines, and we show its utility at predicting plausible futures of static images. Moreover, experiments and visualizations show the model internally learns useful features for recognizing actions with minimal supervision, suggesting scene dynamics are a promising signal for representation learning. We believe generative video models can impact many applications in video understanding and simulation.

研究の動機と目的

認識と生成の両方のタスクのために、大規模な未ラベル動画を活用してシーンダイナミクスを学ぶ。
潜在コードから妥当な短編動画を生成できる生成的なビデオモデルを開発する。
動的な前景と静止背景を分離してダイナミクスをより良くモデル化する。
最小限の監視でアクション分類の学習表現の有用性を示す。

提案手法

時空間アーキテクチャを持つビデオ用の生成対向ネットワーク（GAN）を提案する。
一つのストリーム生成器と、時空間マスク m(z) によって静的背景と動く前景を課す二つのアーキテクチャを導入する。
時間モデリングには3D畳み込みを、アップサンプリングにはfractionally-strided convolutions を用いて、64x64解像度の32フレーム動画を生成する。
現実味と運動整合性の両方を判断できる5層の時空CNNとして判別器を訓練する。
大規模な未ラベル動画（2Mクリップ、5k+時間）を前処理し、背景運動を安定化させて物体ダイナミクスを強調する。
生成動画のリアリズムを比較する心理物理学的研究（MTurk）と、アクション認識のための下流の無監督表現学習によって評価する。

実験結果

リサーチクエスチョン

RQ1ラベルなしの動画を用いて、生成と認識のための頑健なシーンダイナミクスを学習できるか。
RQ2前景/背景の二ストリーム生成器は、単一ストリームよりもより現実的な動作を生成しますか。
RQ3識別器から学習された表現は、ラベル付きデータが限られた場合のアクション認識に有用ですか。
RQ4静止画像やシーンの妥当な未来を生成できますか。
RQ5基準法と比較した生成動画の知覚品質はどうですか。

主な発見

	Golf	Beach	Train	Baby	Mean
Random Preference	50	50	50	50	50
Prefer VGAN Two Stream over Autoencoder	88	83	87	71	82
Prefer VGAN One Stream over Autoencoder	85	88	85	73	82
Prefer VGAN Two Stream over VGAN One Stream	55	58	47	52	53
Prefer VGAN Two Stream over Real	21	23	23	6	18
Prefer VGAN One Stream over Real	17	21	19	8	16
Prefer Autoencoder over Real	4	2	4	2	3

GANベースの動画生成は、シーンカテゴリ（例：ビーチ、ゴルフ場、駅）に対して妥当な短い運動を生み出す。
人間の評価者は多くのシーンで、二ストリームVGANの生成を一ストリームとオートエンコーダのベースラインより好む。
オートエンコーダのベースラインは、一般にVGANアプローチより好まれない。
二ストリームモデルは大背景シーンをより上手く処理し、ワンストリームより背景のフリッカーを低減する。
無監督のVGAN表現は、限られたラベルデータで微調整するとアクション分類を改善し、同程度のデータでランダム初期化に近づくまたは凌ぐことがあり、いくつかのハンドクラフトされたベースラインを上回る。
単一画像からの将来生成は妥当な運動軌跡を生成できるが、正確な内容はしばしば正しくない。ネットワークは運動関連の物体応答を学習する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。