QUICK REVIEW

[論文レビュー] Spatio-Temporal Filter Adaptive Network for Video Deblurring

Shangchen Zhou, Jiawei Zhang|arXiv (Cornell University)|Apr 28, 2019

Advanced Image Processing Techniques参考文献 46被引用数 24

ひとこと要約

本稿では、動画のぼやけを解消するための空間的・時間的フィルタ適応型ネットワーク（STFAN）を提案する。STFANは、新しいフィルタ適応型畳み込み（FAC）層を用いて、時間的整合性とぼやけ除去を統合的に実行する。三重入力（直前のぼやけ画像と復元済み画像、現在のぼやけ画像）から空間的に適応するフィルタを動的に生成することで、明示的な光流推定を回避し、空間的に変化するぼやけを効果的に処理する。ベンチマークデータセット上でPSNR（31.24）とSSIM（0.934）の最先端性能を達成し、速度とモデル効率性の両面で向上を実現した。

ABSTRACT

Video deblurring is a challenging task due to the spatially variant blur caused by camera shake, object motions, and depth variations, etc. Existing methods usually estimate optical flow in the blurry video to align consecutive frames or approximate blur kernels. However, they tend to generate artifacts or cannot effectively remove blur when the estimated optical flow is not accurate. To overcome the limitation of separate optical flow estimation, we propose a Spatio-Temporal Filter Adaptive Network (STFAN) for the alignment and deblurring in a unified framework. The proposed STFAN takes both blurry and restored images of the previous frame as well as blurry image of the current frame as input, and dynamically generates the spatially adaptive filters for the alignment and deblurring. We then propose the new Filter Adaptive Convolutional (FAC) layer to align the deblurred features of the previous frame with the current frame and remove the spatially variant blur from the features of the current frame. Finally, we develop a reconstruction network which takes the fusion of two transformed features to restore the clear frames. Both quantitative and qualitative evaluation results on the benchmark datasets and real-world videos demonstrate that the proposed algorithm performs favorably against state-of-the-art methods in terms of accuracy, speed as well as model size.

研究の動機と目的

カメラのブレ、物体の動き、深度の変化によって引き起こされる空間的に変化するぼやけの問題に対処すること。
時間的整合性とぼやけ除去に、不正確な光流推定に依存する既存手法の限界を克服すること。
明示的な運動場の予測を伴わずに、時間的整合性とぼやけ除去を統合したエンドツーエンドのフレームワークを統合すること。
非一様なぼやけを特徴空間で処理できる柔軟で適応的なフィルタリング機構を開発すること。
大規模な動きと重度のぼやけを伴う実世界の動画において、ぼやけ除去性能を向上させること。

提案手法

STFANネットワークは、三重入力（直前のぼやけ画像 $B_{t-1}$、直前の復元済み画像 $R_{t-1}$、現在のぼやけ画像 $B_t$）を用いる。
空間的に変化するフィルタを動的に生成するフィルタ適応型畳み込み（FAC）層を導入し、整合性ブランチおよびぼやけ除去ブランチの両方で特徴変換を実行する。
FAC層は、ダウンサンプリングされた特徴に学習済みのフィルタを適用することで、小さなフィルタサイズで大きな受容 field を実現し、チャネルごとの適応を可能にする。
整合性ブランチでは、FACを用いて直前のフレームの特徴を明示的な光流や画像ワープなしに現在のフレームにあわせる。
ぼやけ除去ブランチでは、FACを用いて特徴空間で直接空間的に変化するぼやけを除去する。
再構成ネットワークが両ブランチの変換済み特徴を統合し、最終的なシャープなフレームを生成する。

実験結果

リサーチクエスチョン

RQ1明示的な光流推定に依存せずに、統合的なネットワークアーキテクチャが動画のぼやけ除去において整合性とぼやけ除去の両方を効果的に行えるか？
RQ2直前の時刻における復元済み画像とぼやけ画像を併用することで、動きモデリングとぼやけ処理にどのように寄与するか？
RQ3動的に生成される空間的に適応するフィルタは、固定または推定されたカーネルに比べ、空間的に変化するぼやけを効果的に処理できるか？
RQ4FAC層の設計が性能に与える影響、特に受容 field と特徴変換効率の観点でどうなるか？
RQ5三重入力（B_{t-1}, R_{t-1}, B_t）は、単純な入力（B_{t-1}, B_t）や（R_{t-1}, B_t）に比べて、動的なシーンのぼやけをどのようによりよくモデル化できるか？

主な発見

提案されたSTFANは、ベンチマークデータセット上でPSNR 31.24、SSIM 0.934を達成し、両指標で最先端の性能を示した。
アブレーションスタディの結果、整合性ブランチまたはぼやけ除去ブランチのFAC層を削除すると性能が著しく低下し、PSNRはそれぞれ30.59および30.92に低下した。
三重入力（R_{t-1}, B_{t-1}, B_t）が最良の性能を示し、（B_{t-1}, B_t）や（R_{t-1}, B_t）の変種と比較してPSNR 31.24 vs. 30.87および30.85を記録した。
大きな適応フィルタサイズ（k=9）はk=5に比べわずかな向上を示したが、性能と計算コストの実用的トレードオフとしてk=5が選択された。
FAC層により、明示的な光流なしに効果的な特徴ワープとぼやけ除去が可能であることが、定性的な結果から示された。
モデルは速度、精度、モデルサイズのバランスに優れ、k=5の際にはたった537万パラメータで実現され、実世界の展開に適した効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。