QUICK REVIEW

[論文レビュー] Video Frame Synthesis using Deep Voxel Flow

Ziwei Liu, Raymond A. Yeh|arXiv (Cornell University)|Feb 8, 2017

Advanced Vision and Imaging被引用数 22

ひとこと要約

本稿では、3次元ボクセルフロー（フレーム間の空間時間的オプティカルフロー）を学習することで、既存のフレームからピクセル値をコピーし補間する、完全畳み込み型で教師なしの深層学習手法であるDeep Voxel Flow (DVF)を提案する。この手法は、動画補間および外挿において最先端の結果を達成し、オプティカルフローおよびエンドツーエンドの生成的CNNと比較して、よりシャープで時間的に滑らかな出力を得る。ユーザースタディーにより、実測値と同等の知覚的品質が確認されている。

ABSTRACT

We address the problem of synthesizing new video frames in an existing video, either in-between existing frames (interpolation), or subsequent to them (extrapolation). This problem is challenging because video appearance and motion can be highly complex. Traditional optical-flow-based solutions often fail where flow estimation is challenging, while newer neural-network-based methods that hallucinate pixel values directly often produce blurry results. We combine the advantages of these two methods by training a deep network that learns to synthesize video frames by flowing pixel values from existing ones, which we call deep voxel flow. Our method requires no human supervision, and any video can be used as training data by dropping, and then learning to predict, existing frames. The technique is efficient, and can be applied at any video resolution. We demonstrate that our method produces results that both quantitatively and qualitatively improve upon the state-of-the-art.

研究の動機と目的

従来のオプティカルフローが複雑な運動で失敗する状況や、深層生成モデルがぼやけた結果を出す動画フレーム合成（補間および外挿）の課題に取り組む。
地上真値のフロー監視に依存しないようにすることで、オプティカルフローの限界を克服する。これは、高コストでスケーラビリティに欠けるため。
人為的アノテーションなしで、任意の動画を自己教師付き学習データとして用いることで、エンドツーエンドの深層学習の力を活用し、高品質なフレームを合成する。
学習された3次元ボクセルフローを介して、近くのフレームからのピクセルをコピーすることで、ノイズからの想起によるものとは異なり、時間的整合性と知覚的品質を向上させる。
微調整なしに、多様な動画コンテンツおよび解像度（実世界のHD動画を含む）に一般化できることを示す。

提案手法

動画からフレームを落とし、3次元ボクセルフローレイヤーを用いてそれらを再構築することで、教師なしに完全畳み込みニューラルネットワークを訓練する。
ピクセルごとの3次元オプティカルフローベクトルを空間的および時間的次元で計算するボクセルフローレイヤーを導入し、ソースピクセル値の3次元補間を可能にする。
予測されたフレームと実際の削除されたフレームのピクセル単位の差を最小化する再構築損失を用いることで、オプティカルフローの監視なしにエンドツーエンドの訓練を可能にする。
通常2つの入力フレームからなる3次元動画ボリューム上で3次元補間を適用し、学習されたフロー・ベクトルに基づいて出力ピクセルを重み付き混合で生成する。
UCF-101データセットで学習し、微調整なしに多様な実世界のHD動画でテストすることで、モデルの一般化を保証する。
完全畳み込みアーキテクチャのおかげで、任意の解像度での推論が可能であり、スケーラブルな展開が可能になる。

実験結果

リサーチクエスチョン

RQ1教師なしの3次元ボクセルフローを介して、既存のフレームからピクセルをコピーすることで、オプティカルフローの監視なしに高品質な動画フレームを合成できるか？
RQ2近くのフレームからのピクセル値のフローを学習することで、CNNによる直接的なピクセルの想起と比較して、よりシャープで時間的に整合性のある結果が得られるか？
RQ3自己教師付きでエンドツーエンドに学習されたモデルは、微調整なしに多様な動画コンテンツおよび解像度に一般化できるか？
RQ4合成フレームの知覚的品質は、実測値およびEpicFlowのような最先端の手法と比較してどうか？
RQ5本手法の失敗モードは何か？また、曖昧または繰り返しパターンのあるシーンでは、より強い正則化によってそれらを緩和できるか？

主な発見

提案されたDeep Voxel Flow (DVF)手法は、オプティカルフローベースおよびエンドツーエンドの生成的CNN手法と比較して、顕著にシャープで時間的に整合性のある動画フレームを生成する。
ユーザースタディーでは、DVFがEpicFlowを著しく上回り（p < 0.00001）、テストシーケンスの半数で実測値と視覚的に区別できないと判断された。
DVFと実測値が区別できないという帰無仮説のp値は0.838であり、知覚的品質に統計的に有意な差がないことを示している。
xt-sliceの可視化分析により、DVFは滑らかな時間的遷移を維持している一方、EpicFlowはゼロ長のフローベクトルのため、不連続で粗い運動を示している。
微調整なしに実世界のHD動画（1080×720、30 fps）に対しても良好に一般化しており、多様なコンテンツおよび運動タイプにわたる頑健性を示している。
繰り返しパターンのあるシーン（例：'Park'シーケンス）では、曖昧なピクセル対応が原因で誤ったコピーが生じるため、より強い正則化の必要性が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。