Skip to main content
QUICK REVIEW

[論文レビュー] Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features

Xiang Wang, Shaodi You|arXiv (Cornell University)|Jun 12, 2018
Advanced Neural Network Applications参考文献 32被引用数 37
ひとこと要約

本稿では、画像ラベルのみを用いて弱教師ありセマンティックセグメンテーションを実現する反復的でボトムアップおよびトップダウンなフレームワーク、MCOFを提案する。本手法は、粗い初期活性化から共通のオブジェクト特徴を抽出し、サリエンシー誘導型ベイジアン統合によってそれを精緻化することで、オブジェクト局所化を段階的に改善する。その後、向上したマスクを用いてセグメンテーションネットワークを再訓練する。本手法はPASCAL VOC 2012で最先端の性能を達成し、5回の反復後に検証セットで56.2%のmIoUを達成した。

ABSTRACT

Weakly-supervised semantic segmentation under image tags supervision is a challenging task as it directly associates high-level semantic to low-level appearance. To bridge this gap, in this paper, we propose an iterative bottom-up and top-down framework which alternatively expands object regions and optimizes segmentation network. We start from initial localization produced by classification networks. While classification networks are only responsive to small and coarse discriminative object regions, we argue that, these regions contain significant common features about objects. So in the bottom-up step, we mine common object features from the initial localization and expand object regions with the mined features. To supplement non-discriminative regions, saliency maps are then considered under Bayesian framework to refine the object regions. Then in the top-down step, the refined object regions are used as supervision to train the segmentation network and to predict object masks. These object masks provide more accurate localization and contain more regions of object. Further, we take these object masks as initial localization and mine common object features from them. These processes are conducted iteratively to progressively produce fine object masks and optimize segmentation networks. Experimental results on Pascal VOC 2012 dataset demonstrate that the proposed method outperforms previous state-of-the-art methods by a large margin.

研究の動機と目的

  • 分類ネットワークが粗く不正確なオブジェクト局所化しか得られない、画像ラベルのみを用いた弱教師ありセマンティックセグメンテーションの課題に対処すること。
  • 段階的にオブジェクト領域の局所化を改善することで、高レベルの意味的ラベルと低レベルの視覚的外観のギャップを埋めること。
  • 特徴抽出によって徐々に信頼性の高いオブジェクト領域を拡張することで、不正確な初期オブジェクトシードに耐性を持つ堅牢なフレームワークを開発すること。
  • サリエンシー地図を統合することで、初期局所化が見逃した非特徴的オブジェクト部の回復を可能にし、セグメンテーション性能を向上させること。
  • 弱教師ありの設定において、弱い監視信号のみを用いてPASCAL VOC 2012ベンチマークで最先端の性能を達成すること。

提案手法

  • 事前学習済みの画像分類器から得られる分類活性化マップ(CAM)を用いて、初期の粗いオブジェクトシードを生成する。
  • ボトムアップフェーズでは、これらのシードを用いて領域分類ネットワーク(RegionNet)を訓練し、共通のオブジェクト特徴を学習し、オブジェクト領域を拡張する。
  • サリエンシー誘導型の精緻化ステップでは、ベイジアンフレームワークの下で拡張された領域とサリエンシー地図を統合し、欠落したオブジェクト部を回復する。
  • トップダウンフェーズでは、精緻化されたオブジェクト領域を弱い監視信号として用い、ピクセル単位のマスクを予測するセグメンテーションネットワーク(PixelNet)を訓練する。
  • 予測されたマスクを次回の反復における新しいオブジェクトシードとして再利用することで、局所化とネットワーク性能の反復的精緻化を実現する。
  • ボトムアップの特徴抽出とトップダウンのネットワーク訓練を交互に繰り返すことで、段階的に局所化の正確性とセグメンテーション品質を向上させる。

実験結果

リサーチクエスチョン

  • RQ1粗い初期局所化から共通のオブジェクト特徴を反復的に抽出することで、弱教師ありセマンティックセグメンテーションの性能が向上するか?
  • RQ2初期局所化がキーパートにのみ集中する場合、非特徴的オブジェクト領域はどのように回復できるか?
  • RQ3精緻化プロセスにサリエンシー地図を統合することで、マスクの完全性とセグメンテーションの正確性が顕著に向上するか?
  • RQ4マスクのみを監視信号として用いた直接的な反復学習に比べ、ボトムアップおよびトップダウンの反復フレームワークは性能を上回るか?
  • RQ5本手法は、弱教師あり設定において不正確な初期オブジェクトシードに対してどの程度耐性を示すか?

主な発見

  • 本手法は、5回の反復後にPASCAL VOC 2012の検証セットで56.2%のmIoUを達成し、従来の最先端手法を顕著に上回った。
  • 初期オブジェクトシードはトレーニングセットでわずか14.27%のmIoUしか得られなかったが、1回目の完全な反復後には48.4%まで上昇し、急速な改善が確認された。
  • サリエンシー誘導型精緻化を組み込むことで、1回目の反復におけるmIoUが41.8%から44.4%に上昇し、欠落したオブジェクト領域の回復効果が裏付けられた。
  • 反復的MCOFフレームワークは性能を急速に向上させ、5回の反復後にテストセットで63.2%のmIoUを達成した。収束性と頑健性の高さが示された。
  • マスクのみを監視信号として用いた直接的な反復学習と比較すると、MCOFフレームワークははるかに高速かつ高い精度上昇を示し、構造的な特徴抽出と精緻化の利点を確認した。
  • 初期局所化が非常に粗く、顕著な部分(頭部や手)に限定されている場合でも、成功裏に結果を出しており、不正確な初期シードに対しても頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。