QUICK REVIEW

[論文レビュー] MEMC-Net: Motion Estimation and Motion Compensation Driven Neural Network for Video Interpolation and Enhancement

Wenbo Bao, Wei‐Sheng Lai|arXiv (Cornell University)|Oct 20, 2018

Advanced Vision and Imaging参考文献 59被引用数 32

ひとこと要約

本稿では、動画フレーム補間および強化のための運動推定と運動補償を統合的に学習する深層ニューラルネットワーク、MEMC-Netを提案する。光学的フローと補間カーネルを組み合わせた完全微分可能なアダプティブワーピング層を導入することで、補間、スーパーレゾリューション、ノイズ除去、ブロッキング除去において、計算効率と視覚的品質の両方を向上させ、最先端の結果を達成した。

ABSTRACT

Motion estimation (ME) and motion compensation (MC) have been widely used for classical video frame interpolation systems over the past decades. Recently, a number of data-driven frame interpolation methods based on convolutional neural networks have been proposed. However, existing learning based methods typically estimate either flow or compensation kernels, thereby limiting performance on both computational efficiency and interpolation accuracy. In this work, we propose a motion estimation and compensation driven neural network for video frame interpolation. A novel adaptive warping layer is developed to integrate both optical flow and interpolation kernels to synthesize target frame pixels. This layer is fully differentiable such that both the flow and kernel estimation networks can be optimized jointly. The proposed model benefits from the advantages of motion estimation and compensation methods without using hand-crafted features. Compared to existing methods, our approach is computationally efficient and able to generate more visually appealing results. Furthermore, the proposed MEMC-Net can be seamlessly adapted to several video enhancement tasks, e.g., super-resolution, denoising, and deblocking. Extensive quantitative and qualitative evaluations demonstrate that the proposed method performs favorably against the state-of-the-art video frame interpolation and enhancement algorithms on a wide range of datasets.

研究の動機と目的

大規模な運動に対してぼやけた結果や感度の問題を引き起こす、従来の学習ベースの動画フレーム補間手法が、光学的フローのみまたは補償カーネルのみを推定するという限界を解消する。
古典的手法のMEMCの長所とデータ駆動アプローチの長所を統合するため、エンド・ツー・エンドで学習可能な深層学習フレームワーク内で運動推定と補償を統合する。
光学的フローと学習された補間カーネルを融合する新しいアダプティブワーピング層を開発し、高品質な中間フレームを合成する。
提案されたアーキテクチャを、スーパーレゾリューション、ノイズ除去、ブロッキング除去といった複数の動画強化タスクに拡張し、汎用性を実証する。
バックプロパゲーションによる勾配逆伝播を用いて、フローやカーネル推定ネットワークを同時に最適化することで、視覚的品質と計算効率を向上させる。

提案手法

光学的フローと学習された補間カーネルを統合した完全微分可能なアダプティブワーピング層を提案し、ターゲットフレームの画素を合成する。
バックプロパゲーションを用いて、フローや推定ネットワークとカーネル推定ネットワークをエンド・ツー・エンドで同時に学習させ、運動推定と補償の共同最適化を可能にする。
運動の不連続性や欠損データがある領域でのアーチファクトを低減するため、オクルージョンマスクを推定して、ワープされたフレームを適応的にブレンドする。
オクルージョンや運動ブラーによって生じる穴や信頼性の低い領域の画素を精緻化するため、ポストプロセッシングCNNを適用する。
残差ブロックとコンテキストアグリゲーションを用いて特徴表現を強化し、運動境界部での微細なディテールを保持する。
入力と損失関数を変更する一方で、コアネットワーク構造を変更せずに、同じアーキテクチャを動画スーパーレゾリューション、ノイズ除去、ブロッキング除去に適応する。

実験結果

リサーチクエスチョン

RQ1統合的な深層学習フレームワークが、運動推定と補償を同時に最適化することで、動画フレーム補間の品質を向上させられるか？
RQ2アダプティブワーピング層を介して光学的フローと学習された補間カーネルを統合することで、視覚的忠実度と計算効率にどのような影響を与えるか？
RQ3MEMC-Netベースのアーキテクチャは、補間を越えて、複数の動画強化タスクにどの程度汎用的に適用可能か？
RQ4ベンチマークデータセットにおいて、PSNR、SSIM、視覚的品質の観点から、提案手法が最先端の手法を上回るか？
RQ5オクルージョン対応ブレンドとポストプロセッシングモジュールは、複雑な運動領域でのアーチファクト低減にどの程度効果的か？

主な発見

MEMC-Netは、Vimeo90kおよびDAVISデータセットにおいて、ToFlow、MIND、EpicFlowなどと比較して、定量的指標と視覚的品質の両面で最先端のパフォーマンスを達成した。
BayesSRスーパーレゾリューションデータセットでは、MEMC-Net_SRは、残差ブロック数とフィルタ数を少なくしたにもかかわらず、EDSR（SISR）および他の動画スーパーレゾリューションモデルを上回るPSNRを達成した。
動画ノイズ除去において、MEMC-Net_DNは、Vimeo90kとV-BM4Dデータセットにおいて、それぞれ2番目に優れた手法と比較して1.24 dBおよび1.95 dBのPSNR向上を達成した。
動画ブロッキング除去において、MEMC-Net_DBは、EDSR_DB、ToFlow、V-BM4Dを上回り、ブロッキーフェイクを効果的に低減するとともに、微細なテクスチャを良好に保持した。
強化されたコンテキストモデリングを備えた改良版MEMC-Net*は、特に運動境界部でよりシャープな結果と優れたディテール回復を実現した。
定性的な結果から、MEMC-Netは、既存手法と比較して、明確なエッジ、少ないアーチファクト、微細なテクスチャの良好な保持を実現していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。