[論文レビュー] Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation
本論文では、2つの入力フレームの間に複数の中間フレームを生成する高品質で可変長の動画補間を実現するエンド・ツー・エンドの畳み込みニューラルネットワーク、Super SloMoを提案する。U-Netベースのフロー計算および最適化ネットワークを用いて、可視性マップを伴う動き推定とオクルージョンの推論を同時にモデリングすることで、Middlebury、UCF101、および高フレームレートのSintelなど複数のデータセットで最先端の性能を達成した。また、時間に依存しないパラメータを採用しているため、任意の数の中間フレームを並列に生成可能である。
Given two consecutive frames, video interpolation aims at generating intermediate frame(s) to form both spatially and temporally coherent video sequences. While most existing methods focus on single-frame interpolation, we propose an end-to-end convolutional neural network for variable-length multi-frame video interpolation, where the motion interpretation and occlusion reasoning are jointly modeled. We start by computing bi-directional optical flow between the input images using a U-Net architecture. These flows are then linearly combined at each time step to approximate the intermediate bi-directional optical flows. These approximate flows, however, only work well in locally smooth regions and produce artifacts around motion boundaries. To address this shortcoming, we employ another U-Net to refine the approximated flow and also predict soft visibility maps. Finally, the two input images are warped and linearly fused to form each intermediate frame. By applying the visibility maps to the warped images before fusion, we exclude the contribution of occluded pixels to the interpolated intermediate frame to avoid artifacts. Since none of our learned network parameters are time-dependent, our approach is able to produce as many intermediate frames as needed. We use 1,132 video clips with 240-fps, containing 300K individual video frames, to train our network. Experimental results on several datasets, predicting different numbers of interpolated frames, demonstrate that our approach performs consistently better than existing methods.
研究の動機と目的
- 2つの入力フレームの間に高品質な複数の中間フレームを生成する手法を開発すること。これにより、任意のフレームレートの上りサンプリングが可能となる。
- 動き境界周辺のアーチファクトを低減するために、1つのエンド・ツー・エンドで学習可能なネットワークで動き推定とオクルージョンの推論を同時にモデリングすること。
- 時間に依存しないアーキテクチャを設計し、再帰的な1フレーム補間の制限を克服して、任意の数の中間フレームを並列に生成できること。
- 高フレームレートの動画データでモデルを学習させることで、多様な動画補間タスクにおける汎化性能と性能を向上させること。
提案手法
- U-Netベースのフロー計算ネットワークが、2つの入力フレーム間の双方向光学的フローを推定する。
- 双方向フローを線形結合して、希望する各タイムステップの近似中間フローを求める。
- 2番目のU-Netが近似フローを最適化し、オクルージョンを処理するためのソフト可視性マップを予測する。
- 入力フレームを、最適化されたフロー場を用いてワープし、可視性マップを適用した後、線形融合を行うことで、オクルージョン領域のピクセルを除外する。
- 全ネットワークを1,132本の高フレームレート(240 fps)の動画クリップ(合計30万フレーム)でエンド・ツー・エンドに学習する。
- モデルの時間不変パラメータのおかげで、再トレーニングなしに任意の数の中間フレームを並列に生成可能である。
実験結果
リサーチクエスチョン
- RQ11つのエンド・ツー・エンドのディープラーニングモデルが、2つの入力フレームの間に複数の中間フレームを生成しながら、高い空間的・時間的整合性を維持できるか?
- RQ2動き境界やオクルージョンを効果的にモデリングすることで、動画補間におけるアーチファクトを低減できるか?
- RQ3時間に依存しないネットワークアーキテクチャが、再帰的計算のボトル neck を克服して、任意の数の中間フレームを並列に生成できるか?
- RQ4フロー推定と可視性予測の共同最適化が、別個または逐次的なアプローチよりも優れた補間品質をもたらすか?
主な発見
- Middleburyデータセットでは、Super SloMoはすべてのベースライン手法を上回り、8つのシーケンスのうち6つで最高のPSNRとSSIMを達成した。特に、合成シーケンスのUrbanとステレオ・Teddyシーケンスでも優れた結果を示した。
- UCF101では、Super SloMoはすべての指標で非ニューラルおよびCNNベースの手法を上回り、複雑な動き領域でも優れた性能を示した。
- slowflowデータセットでは、Super SloMoが最高のPSNRとSSIMスコアを達成した。FlowNet2はSSIMとL1誤差でわずかに優れていたが、全体的な品質ではSuper SloMoが優れた結果を示した。
- 高フレームレートのMPI Sintelデータセットでは、Super SloMoは他のすべての手法を顕著に上回り、各補間タイムステップで一貫してベースラインより高いPSNRスコアを記録した。
- 教師なし光学的フロー学習において、Super SloMoはKITTI 2012ベンチマークで平均エンドポイント誤差(EPE)13.0を達成し、前回の最先端手法DVFに比べて11%の相対的改善を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。