Skip to main content
QUICK REVIEW

[論文レビュー] Weakly Supervised Top-down Salient Object Detection.

Hisham Cholakkal, Jubin Johnson|arXiv (Cornell University)|Nov 16, 2016
Visual Attention and Saliency Detection参考文献 53被引用数 3
ひとこと要約

本論文は、画素レベルのアノテーションに代えてバイナリ画像レベルラベルのみを用いて、salienceマップを生成する弱教師付きトップダウンsalienceフレームワークを提案する。このフレームワークは、バックトラックされたCNNの信頼度寄与度を活用し、選択されたボトムアップsalienceマップと組み合わせることで、7つのデータセットで4つの応用分野において最先端の性能を達成しており、高コストな教師あり学習手法を上回っている。

ABSTRACT

Top-down saliency models produce a probability map that peaks at target locations specified by a task/goal such as object detection. They are usually trained in a fully supervised setting involving pixel-level annotations of objects. We propose a weakly supervised top-down saliency framework using only binary labels that indicate the presence/absence of an object in an image. First, the probabilistic contribution of each image region to the confidence of a CNN-based image classifier is computed through a backtracking strategy to produce top-down saliency. From a set of saliency maps of an image produced by fast bottom-up saliency approaches, we select the best saliency map suitable for the top-down task. The selected bottom-up saliency map is combined with the top-down saliency map. Features having high combined saliency are used to train a linear SVM classifier to estimate feature saliency. This is integrated with combined saliency and further refined through a multi-scale superpixel-averaging of saliency map. We evaluate the performance of the proposed weakly supervised top-down saliency against fully supervised approaches and achieve state-of-the-art performance. Experiments are carried out on seven challenging datasets and quantitative results are compared with 36 closely related approaches across 4 different applications.

研究の動機と目的

  • 画素レベルのアノテーションに代えて、バイナリ画像レベルラベルのみを必要とするトップダウンsalience検出フレームワークの開発。
  • 画像領域が分類器の信頼度に与える確率的寄与度を活用することで、弱教師付き設定下でのトップダウンsalience学習を可能にすること。
  • 各画像に最も適したボトムアップsalienceマップを選択し、それをトップダウンsalienceと組み合わせることで、salienceマップの品質を向上させること。
  • マルチスケールのスーパーピクセル平均化を用いてsalience予測を精緻化し、高salience特徴上で線形SVMを学習させることで、局所化精度を向上させること。
  • 最小限の監視情報で、複数のベンチマークデータセットにおいて最先端の性能を達成し、弱教師付きアプローチの有効性を示すこと。

提案手法

  • CNNベースの画像分類器の信頼度スコアに対する各画像領域の寄与度をバックトラックすることで、トップダウンsalienceを計算する。
  • トップダウンタスクとの関連性に基づいて、複数の高速ボトムアップアプローチから最も性能の良いボトムアップsalienceマップを選択する。
  • 選択されたボトムアップsalienceマップとトップダウンsalienceマップを統合し、統合されたsalienceマップを生成する。
  • 高結合salience特徴上で線形SVMを学習させることで、特徴レベルのsalienceを推定し、局所化精度を向上させる。
  • マルチスケールのスーパーピクセル平均化を用いて最終的なsalienceマップを精緻化し、空間的一致性と精度を向上させる。
  • 統合されたsalienceと精緻化された特徴を用いて、弱教師付きでオブジェクト存在を予測する分類器を学習する。

実験結果

リサーチクエスチョン

  • RQ1画素レベルのアノテーションに代えて、バイナリ画像レベルラベルのみを用いて、トップダウンsalience検出を効果的に学習できるか?
  • RQ2弱教師付き設定下で、画像領域が分類器の信頼度に与える寄与度をどのように活用し、意味のあるトップダウンsalienceマップを生成できるか?
  • RQ3トップダウンsalienceとボトムアップsalienceを最適に組み合わせることで、局所化精度を向上させることができるか?
  • RQ4スーパーピクセルベースの平均化は、弱教師付きsalienceマップの品質と耐障害性を向上させることができるか?
  • RQ5提案されたフレームワークは、多様なベンチマークデータセットにおいて、完全教師あり手法と比較して最先端の性能を達成できるか?

主な発見

  • 提案された弱教師付きトップダウンsalienceフレームワークは、7つの挑戦的なベンチマークデータセットで最先端の性能を達成した。
  • 4つの異なる応用分野において、36の類似手法を上回り、弱教師付き設定下での強力な一般化性能を示した。
  • バックトラックされたCNN信頼度から得られるトップダウンsalienceと、選択されたボトムアップsalienceマップの統合は、局所化精度を顕著に向上させた。
  • salienceマップのマルチスケールスーパーピクセル平均化は、空間的一致性を高め、オブジェクト境界の局所化を精緻化した。
  • 高結合salience特徴上で学習された線形SVMは、最小限の監視情報で、判別的なパターンを効果的に学習した。
  • バイナリ画像レベルラベルのみを用いても、完全教師あり手法と比較して競争力のある性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。