Skip to main content
QUICK REVIEW

[論文レビュー] Exploiting saliency for object segmentation from image level labels

Seong Joon Oh, Rodrigo Benenson|arXiv (Cornell University)|Jan 28, 2017
Visual Attention and Saliency Detection参考文献 50被引用数 31
ひとこと要約

本論文は、画像ラベルとクラスに依存しないサリエンシーマップを組み合わせることで、最先端の性能を達成する新しい弱教師ありセマンティックセグメンテーション手法を提案する。画像分類器から得られるオブジェクトシードとサリエンシーを用いて、領域予測を実現することで、Pascal VOC 2012で完全教師あり学習性能の80%に達し、従来の画像ラベルのみを用いた手法と比べ顕著な向上を示す。

ABSTRACT

There have been remarkable improvements in the semantic labelling task in the recent years. However, the state of the art methods rely on large-scale pixel-level annotations. This paper studies the problem of training a pixel-wise semantic labeller network from image-level annotations of the present object classes. Recently, it has been shown that high quality seeds indicating discriminative object regions can be obtained from image-level labels. Without additional information, obtaining the full extent of the object is an inherently ill-posed problem due to co-occurrences. We propose using a saliency model as additional information and hereby exploit prior knowledge on the object extent and image statistics. We show how to combine both information sources in order to recover 80% of the fully supervised performance - which is the new state of the art in weakly supervised training for pixel-wise semantic labelling. The code is available at https://goo.gl/KygSeb.

研究の動機と目的

  • ピクセル単位のアノテーションが存在しない状況で、正確なピクセル単位のセマンティックセグメンテーションモデルを訓練するという課題に対処すること。
  • 判別的なオブジェクトシードを超えて、オブジェクトの広がりを推定するためのサリエンシーを事前知識として組み込むことで、弱教師あり学習を改善すること。
  • ピクセル単位のアノテーションのコストを最小限に抑えるとともに、画像ラベルのみを用いた状況で最先端の性能を達成すること。
  • オブジェクトシードとサリエンシーの相乗効果が、ディープネットワークの訓練をどのように導くかを分析すること。
  • サリエンシーがノイズを含んでも、オブジェクト境界予測に強力なインダクティブバイアスを提供することを示すこと。

提案手法

  • 本手法は、訓練済みの画像分類器を用いて、画像ラベルに基づき高信頼度のオブジェクトシード(オブジェクトクラスに対応する判別的な領域)を生成する。
  • 境界ボックスアノテーションで学習されたクラスに依存しないサリエンシーモデルを用い、オブジェクトの広がりを予測し、背景領域を抑制する。
  • ガイド付きセグメンテーションアーキテクチャは、シードとサリエンシーマップを偽正例ラベルとして統合し、セグメンテーションネットワークの学習を促進する。
  • ガイドラベラーは、シードの信頼度とサリエンシーマップを融合して偽ラベルを生成し、フォアグラウンド/バックグラウンドの正確性と再現率を評価指標として用いる。
  • 最終的なセグメンテーション予測の精練のため、CRFの後処理ステップを適用する。
  • このパイプライン全体は、トレーニング中にピクセル単位のアノテーションを一切使用せず、画像ラベルとサリエンシーに依存する。

実験結果

リサーチクエスチョン

  • RQ1画像ラベルのみが利用可能な状況で、サリエンシーマップがオブジェクト全体の広がりを効果的に回復するのを支援できるか?
  • RQ2オブジェクトシードにサリエンシーを組み合わせることで、シード単体よりもセグメンテーション性能がどのように向上するか?
  • RQ3サリエンシーモデルの品質が、最終的なセグメンテーション精度にどの程度影響を与えるか?
  • RQ4画像ラベルとサリエンシーのみを用いた弱教師ありモデルが、完全教師ありベースラインに近い性能を達成できるか?
  • RQ5弱教師ありセマンティックセグメンテーションにおいて、サリエンシーが他の事前知識(例:サイズ、人間による補正)よりも相対的にどの程度の貢献をしているか?

主な発見

  • 本手法(オブジェクトシードとサリエンシーを併用した場合、$\mathcal{G}_2$ と表記)は、Pascal VOC 2012のテストセットで平均交差率(mIoU)56.7を達成し、完全教師ありのDeepLabv1性能の80.6%に達した。
  • 真値サリエンシーマスクを用いたサリエンシー・オラクルケース(真値を用いる場合)では56.9 mIoUを達成しており、より高精度なサリエンシーモデルの改善によりさらなる向上が可能であることが示唆された。
  • シードなしのサリエンシー単体のガイド($\mathcal{G}_0$)でも48.8 mIoUを達成しており、サリエンシーそのものが強力な監視信号であることが実証された。
  • MIL-FCN、CCNN、WSSL、SECといった、画像ラベルのみを用いた従来の最先端手法と比べ、顕著な性能向上を示した。
  • サリエンシーの導入により、シード単体ベースライン($\mathcal{G}_0$ 対 $\mathcal{G}_2$)に対して5.1%の絶対的向上が達成され、広がり予測におけるサリエンシーの重要性が確認された。
  • 人間による補正なしに、画像ラベルとサリエンシーのみを用いた手法の中で、報告された最高の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。