QUICK REVIEW

[論文レビュー] A Two-Stream Variational Adversarial Network for Video Generation.

Ximeng Sun, Huijuan Xu|arXiv (Cornell University)|Dec 3, 2018

Generative Adversarial Networks and Image Synthesis被引用数 13

ひとこと要約

本稿では、並列な生成器と適応型モーショングレインを用いてコンテンツとモーション生成を分離する2ストリーム変動的対抗ネットワーク、TwoStreamVANを提案する。特徴量のスケールを跨いで段階的に統合することで、Weizmann、MUG、および新しい合成された人間行動データセットにおいて最先端の性能を達成し、先行手法に比べて現実性とモーション品質の両面で顕著に優れている。

ABSTRACT

Video generation is an inherently challenging task, as it requires the model to generate realistic content and motion simultaneously. Existing methods generate both motion and content together using a single generator network, but this approach may fail on complex videos. In this paper, we propose a two-stream video generation model that separates content and motion generation into two parallel generators, called Two-Stream Variational Adversarial Network (TwoStreamVAN). Our model outputs a realistic video given an input action label by progressively generating and fusing motion and content features at multiple scales using adaptive motion kernels. In addition, to better evaluate video generation models, we design a new synthetic human action dataset to bridge the difficulty gap between over-complicated human action datasets and simple toy datasets. Our model significantly outperforms existing methods on the standard Weizmann Human Action and MUG Facial Expression datasets, as well as our new dataset.

研究の動機と目的

リアルな動画を同時に一貫性のあるモーションとコンテンツを持つ形で生成する課題に対処すること。
複雑な動画生成に苦労する単一の生成器モデルの限界を克服すること。
単純なデータセットと過度に複雑なデータセットの間のギャップを埋める新しい合成された人間行動データセットを設計すること。
コンテンツとモーション生成を並列ストリームに分離することで、動画生成品質を向上させること。
適応型モーションカーネルを用いて、複数スケールでのモーションおよびコンテンツ特徴量の段階的統合を可能にすること。

提案手法

モデルは2つの並列生成器（コンテンツ用とモーション用）を採用し、変動的対抗フレームワークで訓練する。
適応型モーションカーネルを用いて、複数スケールに跨るモーションおよびコンテンツ特徴量を段階的に統合することで、空間的・時間的整合性を向上させる。
行動ラベルを入力として用いる条件付きVAE構造を採用し、動画生成をガイドする。
適応型モーションカーネルはモーションパターンに応じて動的に調整され、時間的整合性を向上させる。
制御された複雑さを持つベンチマークとしての新しい合成された人間行動データセットを構築する。
対抗訓練フレームワークには、コンテンツとモーションの両方の現実性を評価する識別器が含まれる。

実験結果

リサーチクエスチョン

RQ1コンテンツとモーション生成を分離することで、複雑なシナリオにおける動画合成品質が向上するか？
RQ2適応型モーションカーネルの使用は、動画フレーム間の時間的整合性を向上させるのにどの程度有効か？
RQ3中程度の複雑さを持つ新しい合成データセットは、動画生成モデルの評価に適しているか？
RQ42ストリームアーキテクチャは、標準ベンチマークにおいて単一生成器アプローチと比較してどの程度優れているか？
RQ5複数スケールに跨る特徴量の段階的統合は、動画の現実性とモーション品質をどの程度向上させるか？

主な発見

TwoStreamVANはWeizmann Human Actionデータセットにおいて最先端の性能を達成し、動画の現実性とモーションの一貫性において既存手法を上回っている。
MUG Facial Expressionデータセットにおいても、顔面モーションの複雑さに強く、生成品質が顕著に向上している。
新たに提案された合成された人間行動データセットでは、多様なモーションパターンにわたる一般化性能と一貫性が優れている。
アブレーションスタディにより、2ストリーム設計と適応型モーションカーネルが性能向上に不可欠であることが確認された。
マルチスケール特徴量を用いた段階的統合メカニズムにより、より現実的で時間的に安定した動画出力が得られた。
定量的指標および定性的な動画品質の両面で、本モデルの性能は先行手法を上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。