QUICK REVIEW

[論文レビュー] Real Time Image Saliency for Black Box Classifiers

Piotr Dabkowski, Yarin Gal|arXiv (Cornell University)|May 22, 2017

Visual Attention and Saliency Detection参考文献 12被引用数 79

ひとこと要約

著者らは、任意の differentiable image classifier に対して単一パスのサリエンシーマップを生成する高速のモデルベースのマスキングネットワークを訓練します。これによりリアルタイムのサリエンシ検出とImageNetおよび CIFAR-10 での弱教師あり局在化を向上させます。

ABSTRACT

In this work we develop a fast saliency detection method that can be applied to any differentiable image classifier. We train a masking model to manipulate the scores of the classifier by masking salient parts of the input image. Our model generalises well to unseen images and requires a single forward pass to perform saliency detection, therefore suitable for use in real-time systems. We test our approach on CIFAR-10 and ImageNet datasets and show that the produced saliency maps are easily interpretable, sharp, and free of artifacts. We suggest a new metric for saliency and test our method on the ImageNet object localisation task. We achieve results outperforming other weakly supervised methods.

研究の動機と目的

反復的マスキングに依存しない、堅牢で解釈可能なサリエンシ手法を動機づける。
任意の differentiable classifier に適用可能な高速なモデルベースのサリエンシ検出器を開発する。
マスクが滑らかで正確で、アーティファクトを生まないようにしつつ、顕著な領域で分類器の信頼度を保持すること。
最小限の十分/破壊領域の概念に整合する新しいサリエンシ指標を導入し、大規模データセットで検証する。

提案手法

四項目の目的関数を最小化してサリエンシマスクを予測するマスキングモデルを訓練する（四項目的）（Equation 4）。
アーティファクトを制御するために、生成された証拠除去関数 Phi(X,M)=X⊙M+A⊙(1−M) を用い、A はぼかしまたはランダムカラー/ノイズ画像のいずれか。
学習済みの埋め込み C を介してクラス情報を符号化し、Equation 7 にある高レベルの ResNet 特徴に適用された特徴フィルタを通じて顕著な領域を局在化する。
最終マスク M を、二チャネル出力をカスタム非線形性 M_s=abs(C_0)/(abs(C_0)+abs(C_1)) で結合し、入力解像度へアップサンプリングして得る。
固定されたエンコーダ重みで訓練し、主要な物体をマスクするのを防ぐために定期的に偽クラスによる監督を用い、Phi 呼び出し時には代替画像 A をランダム化してロバスト性を向上させる。

実験結果

リサーチクエスチョン

RQ1訓練可能なマスキングモデルは、任意の differentiable image classifier に対して単一のフォワードパスで正確で鋭いサリエンシマップを生成できるか。
RQ2モデルベースのサリエンシは反復的/勾配ベースの手法と比較して局在化の精度と解釈性はどうか。
RQ3アーティファクトに頑健で、最小限の十分/破壊領域を反映するサリエンシ品質評価の適切な指標は何か？
RQ4ImageNetと CIFAR-10 のような多様なデータセットおよび複数のブラックボックス分類器に対してこのアプローチは効果的か？
RQ5リアルタイムサリエンシは動画サリエンシや弱教師あり局在化のような実用的な応用を可能にするか？

主な発見

マスキングモデルは標準的なGPU上で1秒あたり100以上のマスクを実現するリアルタイムサリエンシを達成。
ImageNet では、黒箱として ResNet-50 を用いたマスキングモデルの局在化誤差は36.7%で、いくつかの弱教師ありベースラインを上回る。
GoogLeNet を黒箱とした場合の局在化誤差は36.9%、AlexNet では39.8%（文脈の必要性により高い）。
新しいサリエンシ指標 s(a,p)=log(â)−log(p)（â=max(a,0.05)）はサリエンシの解釈性と相関し、より良い検出器ほど低い。マスキングモデルは0.318の指標を達成し、Grad (0.451) や Exc (0.415) などのベースラインより低い。
本手法は ImageNet の局在化における従来の弱教師あり法を上回り、鋭く解釈可能なマスクと、いくつかのケースで地上真実ボックスと同等の局在化ボックスを生成する。
CIFAR-10 では、変更された軽量アーキテクチャとランダムに初期化されたマスクでも明確に解釈可能なサリエンシマップを生成し、低解像度データへの手法の一般化を確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。