QUICK REVIEW

[論文レビュー] Examining the Impact of Blur on Recognition by Convolutional Networks

Igor Vasiljevic, Ayan Chakrabarti|arXiv (Cornell University)|Nov 17, 2016

Image Enhancement Techniques参考文献 25被引用数 146

ひとこと要約

本論文は、ブラーがCNNベースの認識をどのように劣化させるかを分析し、ブラー画像でファインチューニングすることで多くの精度を回復し、ブラー不変表現を誘発することを示す。ブラー種を超えたロバスト性の伝達があり、ブラー下でのセマンティックセグメンテーションも改善される。

ABSTRACT

State-of-the-art algorithms for many semantic visual tasks are based on the use of convolutional neural networks. These networks are commonly trained, and evaluated, on large annotated datasets of artifact-free high-quality images. In this paper, we investigate the effect of one such artifact that is quite common in natural capture settings: optical blur. We show that standard network models, trained only on high-quality images, suffer a significant degradation in performance when applied to those degraded by blur due to defocus, or subject or camera motion. We investigate the extent to which this degradation is due to the mismatch between training and input image statistics. Specifically, we find that fine-tuning a pre-trained model with blurred images added to the training set allows it to regain much of the lost accuracy. We also show that there is a fair amount of generalization between different degrees and types of blur, which implies that a single network model can be used robustly for recognition when the nature of the blur in the input is unknown. We find that this robustness arises as a result of these models learning to generate blur invariant representations in their hidden layers. Our findings provide useful insights towards developing vision systems that can perform reliably on real world images affected by blur.

研究の動機と目的

高品質な画像で学習したときのCNNベースの画像分類とセグメンテーションに対する光学的ブラーの影響を評価する。
ImageNetおよびVOC2012ベースのタスクで、デフォーカス、モーション、カメラシェイクブラーによる性能低下を定量化する。
ブラー画像でのファインチューニングが精度を回復させ、表現にブラー不変性をもたらすかを検討する。
混合ブラーによるファインチューニングが、明示的なデブラーリングの方法と比較してどの程度効果的かを検討する。

提案手法

ImageNet検証画像のブラー版に対して、ImageNetで事前学習済みのVGG-16を複数のブラーカーネル（デフォーカス、モーション、カメラシェイク、ガウシアン）で評価する。
シャープ画像とブラー画像の混合を一定スケール（およびスケール変動）で使用して、頑健性を評価するために事前学習済みモデルをファインチューニングする。
ブラー下での層ごとの活性化類似性を分析して、どこにブラー不変性が出現するかを理解する。
既知のカーネルによる明示的デブラーリングと混合ブラーのファインチューニングを比較する。
ブラー入力を用いたVOC2012のZoomoutベースネットワークで、意味セグメンテーションにも分析を拡張する。

実験結果

リサーチクエスチョン

RQ1シャープ画像で学習したCNNのトップ5精度と予測信頼度にブラーはどう影響するか。
RQ2ブラーデータでのファインチューニングは精度を回復させ、内部表現にブラー不変性を生み出せるか。
RQ3頑健性は異なるブラータイプや程度で一般化するか。スケールはこの頑健性にどう影響するか。
RQ4混合ブラーによるファインチューニングは、デブラーリング後のシャープ画像分類と比べて効果的か。
RQ5ブラーに対する頑健な訓練の改善は、セマンティックセグメンテーションにも拡張されるか。

主な発見

Scale	Blur Type	Top-5 Accuracy
128	Sharp	76.07%
128	D2	74.83%
128	D4	68.48%
128	D6	61.03%
128	D8	53.34%
128	Camera Shake	58.91%
128	Gaussian σ=4	56.34%
256	Sharp	90.88%
256	D4	81.48%
256	D8	60.97%
256+512	Sharp	92.17%
256+512	D4	80.93%
256+512	D8	51.40%
512	Sharp	90.76%
512	D8	22.52%
512	Gaussian σ=8	3.41%
Fine-tuned (mix) 256	Sharp	91.03%
Fine-tuned (mix) 256	D8	87.01%
Fine-tuned (mix) 512	Sharp	85.99%
Fine-tuned (per-scale) 256+512	Sharp	91.10%
Original	Sharp	90.60%

ブラーはブラー入力上のCNNの精度を著しく低下させ、カーネルが大きくなるほど低下が大きい。
シャープ画像とブラー画像の混合でのファインチューニングは、ブラー入力で失われた精度をほとんど回復し、シャープ画像での損失はごくわずかである。
多様なブラーのスケールで訓練すると、ブラータイプ間の一般化が得られる。デフォーカスとカメラシェイクの移行は互いに改善するが、一部のブラー間一般化は不完全である。
ブラーに対する頑健な訓練は、ブラー無し画像の予測エントロピーをブラー時より低く抑える一方、ブラー入力での信頼度を高める。
固定スケール（256）での混合ブラーによるファインチューニングは強い頑健性を提供する。マルチスケール（256+512）は追加のわずかな利得をもたらすが、メモリコストが高い。一方、スケール別ネットワークでは小さな改善。
明示的デブラーリングと比較して、ブラー耐性ファインチューニングは同等かそれ以上の精度を、はるかに低い計算コストで実現する（デブラーリングは高コスト）。
セマンティックセグメンテーション（VOC2012）では、ブラーでファインチューニングした場合にブラー画像上のmIOUが改善されるが、分類と比べてシャープ画像とのギャップはまだ大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。