Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Deep Multi-focus Image Fusion

Xiang Yan, Syed Zulqarnain Gilani|arXiv (Cornell University)|Jun 19, 2018
Advanced Image Fusion Techniques参考文献 7被引用数 48
ひとこと要約

MFNetを提案する。SSIMベースの損失を用い、マルチフォーカス画像の対を直接統合して完全に焦点が合った画像を生成するエンドツーエンドの教師なしCNN。真の融合画像なしで実データのベンチマークデータで訓練。

ABSTRACT

Convolutional neural networks have recently been used for multi-focus image fusion. However, due to the lack of labeled data for supervised training of such networks, existing methods have resorted to adding Gaussian blur in focused images to simulate defocus and generate synthetic training data with ground-truth for supervised learning. Moreover, they classify pixels as focused or defocused and leverage the results to construct the fusion weight maps which then necessitates a series of post-processing steps. In this paper, we present unsupervised end-to-end learning for directly predicting the fully focused output image from multi-focus input image pairs. The proposed approach uses a novel CNN architecture trained to perform fusion without the need for ground truth fused images and exploits the image structural similarity (SSIM) to calculate the loss; a metric that is widely accepted for fused image quality evaluation. Consequently, we are able to utilize {\em real} benchmark datasets, instead of simulated ones, to train our network. The model is a feed-forward, fully convolutional neural network that can process images of variable sizes during test time. Extensive evaluations on benchmark datasets show that our method outperforms existing state-of-the-art in terms of visual quality and objective evaluations.

研究の動機と目的

  • 真のデータなしでのマルチフォーカス画像融合を動機づける。
  • マルチフォーカス入力から完全に焦点が合った画像を出力するエンドツーエンドのCNNを開発する。
  • 融合、特徴抽出、再構成を1つのネットワークに統合してポスト処理を排除する。
  • 合成ブラーではなく実データのベンチマークデータセットを訓練に活用する。
  • 再現性を促すために公開可能な訓練済みモデルを提供する。

提案手法

  • 3つの特徴抽出サブネットワークが各入力画像から非線形特徴を抽出する。
  • 2つの入力特徴の融合を平均画像の特徴と結合し、再構成サブネットワークへ入力する。
  • 損失は局所的に融合出力と入力を比較するマルチフォーカスSSIM指標に基づく。
  • すべての畳み込み層は3x3の64フィルタをゼロパディング付きで使用。最後の層を除きLeaky ReLUを使用する。最後の層はシグモイドを使用。
  • 訓練はベンチマークデータセットから得られた60組のマルチフォーカス画像対から切り出した50,000パッチを用い、400イテレーションのエポック構造で行う。

実験結果

リサーチクエスチョン

  • RQ1真のデータなしでのマルチフォーカス入力から全て焦点が合った画像を出力するエンドツーエンドの教師なしCNNを学習できるか。
  • RQ2SSIMベースの損失はマルチフォーカスシナリオの融合品質を効果的に導くか。
  • RQ3MFNetは標準ベンチマークで複数の指標において最先端の融合手法と比較してどうか。
  • RQ4テスト時に可変な画像サイズを扱えるモデルか。

主な発見

  • MFNetは複数のデータセットと画像セットでいくつかの客観指標で最先端手法を上回る。
  • 競合手法と比較して境界アーチファクトを低減した視覚的にアーティファクトのない融合画像を生成する。
  • MFNetはCNNベースのベースラインよりも高速な実行時間を実現しつつ、より高い融合品質を提供する。
  • ネットワークは完全畳み込み設計のためテスト時に入力サイズの可変性をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。