Skip to main content
QUICK REVIEW

[論文レビュー] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps

Karen Simonyan, Andrea Vedaldi|arXiv (Cornell University)|Dec 20, 2013
Visual Attention and Saliency Detection参考文献 10被引用数 4,905
ひとこと要約

本論文はCNN向けの勾配ベースの可視化手法を提示する: (1) 入力を最適化してクラスを代表する画像を生成する、(2) 弱教師あり局在化のための画像ごとの顕著性マップを作成する、これらをDeconvNetの復元と関連付ける。

ABSTRACT

This paper addresses the visualisation of image classification models, learnt using deep Convolutional Networks (ConvNets). We consider two visualisation techniques, based on computing the gradient of the class score with respect to the input image. The first one generates an image, which maximises the class score [Erhan et al., 2009], thus visualising the notion of the class, captured by a ConvNet. The second technique computes a class saliency map, specific to a given image and class. We show that such maps can be employed for weakly supervised object segmentation using classification ConvNets. Finally, we establish the connection between the gradient-based ConvNet visualisation methods and deconvolutional networks [Zeiler et al., 2013].

研究の動機と目的

  • クラスモデルを代表画像として可視化することによって、ConvNets が視覚クラスについて何を学んでいるのかを理解する。
  • 特定の画像においてクラススコアに寄与する領域を特定するための画像ごとの顕著性マップを開発する。
  • 追加のアノテーションなしで、顕著性マップが弱教師ありの物体局在化を可能にすることを実証する。
  • 勾配ベースの可視化とDeconvNetの再構成との理論的関係を確立する。

提案手法

  • クラススコア S_c(I) を計算し、L2 正則化の下で S_c(I) を最大化するように入力画像 I を最適化する。
  • 特定の画像で一階微分 w = dS_c/dI を得るために逆伝播を行い、画像ごとの顕著性マップ M を形成する。M_ij = |w_h(i,j)|(グレー)または M_ij = max_c |w_h(i,j,c)|(カラー)。
  • 入力画像で選択したクラスの顕著性マップを生成するために、単一の逆伝播パスを使用する。
  • 顕著性閾値から導かれた前景/背景のカラーモデルを用いて GraphCut を適用し、弱教師ありの物体局在化を達成する。
  • 近似再構成がネットワークを通じた勾配の逆伝播に対応することを示すことにより、勾配ベースの可視化を DeconvNet 再構成と関連づける。

実験結果

リサーチクエスチョン

  • RQ1入力の勾配ベースの最適化は、CNN がクラスをどのように理解しているかを明らかにできるか?
  • RQ2追加のアノテーションなしに、画像ごとの顕著性マップは特定の画像におけるクラスの空間的サポートを暴露できるか?
  • RQ3勾配ベースの可視化手法はDeconvNetの再構成と同等か、または関連があるか?
  • RQ4顕著性駆動の局在化は弱教師ありで競争力の高い性能を達成できるか?
  • RQ5可視化は理解をどのように高め、学習フレームワークへの組み込みの可能性をどう示唆するか?

主な発見

  • クラスモデルの可視化は、クラススコア S_c(I) を最大化することによって、クラスが学習した視覚的外観を表す画像を生成する。
  • 入力微分から作成された画像ごとの顕著性マップは、画像中の特定のクラスを識別する領域を強調し、単一の逆伝播パスで作成可能である。
  • 顕著性マップは閾値処理と GraphCut の使用による物体マスクの生成を通じて弱教師ありの物体局在化を可能にし、彼らの設定で ILSVRC-2013 における top-5 局在誤差 46.4% を達成した。
  • 勾配ベースの可視化は DeconvNet の再構成手順を一般化し、ほとんどの層で逆伝播した勾配と DeconvNet の再構成の同等性または密接な関係を示す。
  • 使用されたネットワークは ILSVRC-2013 バリデーションで top-1 エラー 39.7%、top-5 エラー 17.7% を達成し、参照された prior single-CNN の結果 (40.7%/18.2%) を上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。