QUICK REVIEW

[論文レビュー] Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring

Seungjun Nah|arXiv (Cornell University)|Dec 7, 2016

Advanced Image Processing Techniques参考文献 29被引用数 33

ひとこと要約

本稿では、ぼやけた画像から鮮鋭な画像へのエンドツーエンドマッピングを学習することで、明示的なぼやけ核推定を回避する、ダイナミックシーンのぼやけ除去のための深層マルチスケール畳み込みニューラルネットワークを提案する。実際のぼやけと正例画像を含む新規の高速カメラベースデータセットで訓練されたモデルは、PSNR、SSIM、実行時間の両面で、定量的・定性的な指標において最先端の性能を達成した。

ABSTRACT

Non-uniform blind deblurring for general dynamic scenes is a challenging computer vision problem as blurs arise not only from multiple object motions but also from camera shake, scene depth variation. To remove these complicated motion blurs, conventional energy optimization based methods rely on simple assumptions such that blur kernel is partially uniform or locally linear. Moreover, recent machine learning based methods also depend on synthetic blur datasets generated under these assumptions. This makes conventional deblurring methods fail to remove blurs where blur kernel is difficult to approximate or parameterize (e.g. object motion boundaries). In this work, we propose a multi-scale convolutional neural network that restores sharp images in an end-to-end manner where blur is caused by various sources. Together, we present multi-scale loss function that mimics conventional coarse-to-fine approaches. Furthermore, we propose a new large-scale dataset that provides pairs of realistic blurry image and the corresponding ground truth sharp image that are obtained by a high-speed camera. With the proposed model trained on this dataset, we demonstrate empirically that our method achieves the state-of-the-art performance in dynamic scene deblurring not only qualitatively, but also quantitatively.

研究の動機と目的

複雑な動的シーンにおける非一様な運動や深度変動がある状況で、簡素化されたぼやけ核仮定に依存する従来のぼやけ除去手法の限界を解消すること。
現実的でない核モデルを有する合成ぼやけデータセットに依存する既存のCNNベースの手法の欠点を克服すること。
明示的な核推定を伴わず、複雑で空間的に変化するぼやけ核を暗黙的にモデル化するエンドツーエンドのディープラーニングフレームワークを開発すること。
高精度な教師あり学習を可能にするために、高速カメラを用いて撮影した大規模で現実的なぼやけ画像と正例画像のペアから成るデータセットを構築すること。

提案手法

粗くから細かく最適化を模倣するマルチスケールU-Net風のCNNアーキテクチャを提案。スケール間のスキップ接続により高周波成分を保持する。
複数の解像度レベルでのコンテンツ損失を組み合わせたマルチスケール損失関数を採用し、収束性と特徴量学習を向上させる。
パッチGAN識別器を用いた敵対的損失を導入し、知覚的品質の向上とアーチファクトの低減を図る。
新規なデータセット収集法を提案：動的シーンの高速連写を撮影し、フレームを平均化して現実的なぼやけをシミュレート。ガンマ補正を適用。
Adam最適化法を用い、学習率の段階的減少を実行。生成器と識別器を同時に訓練し、次の組み合わせ損失を最小化する：$\mathcal{L}_{total} = \mathcal{L}_{cont} + \lambda \times \mathcal{L}_{adv}$ ここで $\lambda = 10^{-4}$。
一般化性能の向上を図るため、特に運動境界や隠蔽領域などの複雑なぼやけパターンに対してデータオーグメンテーションを適用。

実験結果

リサーチクエスチョン

RQ1複雑な動的シーンにおいて、ぼやけ核の明示的推定を伴わずに、ディープラーニングモデルが優れたぼやけ除去性能を達成できるか？
RQ2マルチスケール損失関数は、エンドツーエンドぼやけ除去ネットワークの収束性と画像品質にどのように寄与するか？
RQ3高速カメラで撮影された実世界のぼやけデータセットは、合成データセットと比較して、一般化性能と性能にどの程度の向上をもたらすか？
RQ4マルチスケールコンテンツ損失と敵対的損失を組み合わせることで、標準的な損失関数と比較して、より優れた知覚的品質とアーチファクト低減が達成できるか？
RQ5本手法は、実世界および合成ベンチマークにおいて、最先端の手法と比較して、速度と精度の両面で優れているか？

主な発見

GOPROデータセットでは、スケールレベルK=2でPSNRが29.23、SSIMが0.9162を達成し、Sunら[26]（PSNR: 24.64、SSIM: 0.8429）やKimとLee[15]（PSNR: 23.64、SSIM: 0.8239）と比較して顕著に優れた性能を示した。
K=3での処理時間は1枚あたり3.09秒であり、Sunら[26]のベースライン手法（20分）と比較して20倍以上高速であった。
Köhlerデータセットでは、K=3でPSNRが26.48、MSSIMが0.8116を達成し、両指標で以前の最先端手法を上回った。
定性的な結果から、本手法は運動境界や隠蔽領域におけるシャープなエッジと詳細の回復に効果的であり、核推定に基づく手法でよく見られるリングングアーチファクトを回避していることが明らかになった。
核フリーの現実的でないデータセットで学習したため、非線形的かつ複雑な運動パターンを含む未学習のぼやけパターンに対しても、良好な一般化性能を示した。
アブレーションスタディの結果、マルチスケール損失と敵対的損失の組み合わせが、知覚的品質と収束性を顕著に向上させていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。