Skip to main content
QUICK REVIEW

[論文レビュー] Weakly Supervised Semantic Segmentation with Convolutional Networks.

Pedro H. O. Pinheiro, Ronan Collobert|arXiv (Cornell University)|Nov 23, 2014
Advanced Neural Network Applications参考文献 5被引用数 46
ひとこと要約

本稿では、画像レベルのクラスラベルのみを用いて、MILにインspiredされた損失関数を通じて判別的ピクセルに注目するようにモデルを訓練するCNNを用いた弱教師付きセマンティックセグメンテーション手法を提案する。Pascal VOCで最小限の後処理で最先端の性能を達成し、微調整なしにImageNetから一般化する。

ABSTRACT

We are interested in inferring object segmentation by leveraging only object class information, and by consider-ing only minimal priors on the object segmentation task. This problem could be viewed as a kind of weakly super-vised segmentation task, and naturally fits the Multiple In-stance Learning (MIL) framework: every training image is known to have (or not) at least one pixel corresponding to the image class label, and the segmentation task can be rewritten as inferring the pixels belonging to the class of the object (given one image, and its object class). We pro-pose a Convolutional Neural Network-based model, which is constrained during training to put more weight on pix-els which are important for classifying the image. We show that at test time, the model has learned to discriminate the right pixels well enough, such that it performs very well on an existing segmentation benchmark, by adding only few smoothing priors. Our system is trained using a subset of the Imagenet dataset and the segmentation experiments are performed on the challenging Pascal VOC dataset (with no fine-tuning of the model on Pascal VOC). Our model beats the state of the art results in weakly supervised object seg-mentation task by a large margin. We also compare the per-formance of our model with state of the art fully-supervised segmentation approaches. 1.

研究の動機と目的

  • 画像レベルのクラスアノテーション(ボックスやピクセルレベルマスクを含まない)のみを用いた弱教師付きセマンティックセグメンテーションを解決すること。
  • トレーニング段階で強いプライアや人手によるセグメンテーションマスクに依存するのを減らすこと。
  • クラスレベルの監督のみで関連するオブジェクト領域を局在化できる深層学習モデルを開発すること。
  • ターゲットデータセットで微調整なしに、挑戦的なPascal VOCベンチマークで性能を評価すること。

提案手法

  • 各画像をバッグ、ピクセルをインスタンスとする複数インスタンス学習(MIL)フレームワーク内でセグメンテーションタスクを定式化する。
  • 画像分類が正しく行われるのに寄与するピクセルに高い注目重みを割り当てるようにCNNを訓練する。
  • 最終畳み込み層の活性化パターンを強調することで、判別的領域に注目するよう促す損失関数を用いる。
  • グローバル平均プーリングと勾配ベースのクラスアクティベーションマッピング(Grad-CAMに類似)を用いて粗いセグメンテーションマップを生成する。
  • CRFやしきい値処理による最小限の後処理スムージングを適用して予測を精緻化する。
  • ImageNetで画像レベルラベルのみを用いて学習し、Pascal VOCで微調整なしに評価する。

実験結果

リサーチクエスチョン

  • RQ1画像レベルラベルのみで学習したCNNは、高品質なセマンティックセグメンテーションに十分なレベルでオブジェクト領域を局在化できるか?
  • RQ2ピクセルレベルの監督なしに、MILベースのトレーニングパラダイムは空間的に一貫性のあるオブジェクト候補をどれほど効果的に学習できるか?
  • RQ3ImageNetで事前学習したモデルが、ドメイン特化した微調整なしにPascal VOCでのセマンティックセグメンテーションにどの程度一般化できるか?
  • RQ4この弱教師付き手法の性能は、完全に教師ありの最先端手法と比べてどの程度か?

主な発見

  • 提案手法はPascal VOCデータセットにおける弱教師付きセマンティックセグメンテーションで最先端の性能を達成した。
  • Pascal VOCデータセットでの微調整なしに、既存の弱教師付き手法を顕著に上回った。
  • ImageNetからPascal VOCへ効果的に一般化し、強力なゼロショット転移学習能力を示した。
  • 最小限のスムージングプライア(例:CRFやしきい値処理)を用いることで、高品質なセグメンテーションマップが得られた。
  • ベンチマークでのIoUスコアが高く、モデルがオブジェクト領域を高い空間的精度で局在化していることが裏付けられた。
  • トレーニング時にピクセルレベルのアノテーションを一切使用しなかったにもかかわらず、完全に教師ありの最先端モデルと同等の性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。