QUICK REVIEW

[論文レビュー] Weakly Supervised Instance Segmentation using Class Peak Response

Yanzhao Zhou, Yi Zhu|arXiv (Cornell University)|Apr 3, 2018

Advanced Neural Network Applications参考文献 41被引用数 39

ひとこと要約

本論文は、画像ラベルのみを用いて訓練された完全畳み込みネットワークから得られるクラスピーク応答を用いて、弱教師ありインスタンスセグメンテーション手法を提案する。クラス応答マップ内の局所的最大値（ピーク）を刺激し、逆誤差伝搬することで、細粒度なインスタンス境界とレイアウトを捉えるピーク応答マップ（PRMs）を生成する。このアプローチにより、ピクセル単位のアノテーションを一切不要としつつ、高品質なインスタンスマスク抽出が可能となり、PASCAL VOC 2012およびMS COCOベンチマークで最先端の性能を達成する。

ABSTRACT

Weakly supervised instance segmentation with image-level labels, instead of expensive pixel-level masks, remains unexplored. In this paper, we tackle this challenging problem by exploiting class peak responses to enable a classification network for instance mask extraction. With image labels supervision only, CNN classifiers in a fully convolutional manner can produce class response maps, which specify classification confidence at each image location. We observed that local maximums, i.e., peaks, in a class response map typically correspond to strong visual cues residing inside each instance. Motivated by this, we first design a process to stimulate peaks to emerge from a class response map. The emerged peaks are then back-propagated and effectively mapped to highly informative regions of each object instance, such as instance boundaries. We refer to the above maps generated from class peak responses as Peak Response Maps (PRMs). PRMs provide a fine-detailed instance-level representation, which allows instance masks to be extracted even with some off-the-shelf methods. To the best of our knowledge, we for the first time report results for the challenging image-level supervised instance segmentation task. Extensive experiments show that our method also boosts weakly supervised pointwise localization as well as semantic segmentation performance, and reports state-of-the-art results on popular benchmarks, including PASCAL VOC 2012 and MS COCO.

研究の動機と目的

ピクセル単位のマスクに代わる、画像ラベルのみを用いたインスタンスセグメンテーションモデルの学習に課題に取り組むこと。
インスタンスレベルの監視を必要とせず、深層畳み込み特徴に埋め込まれたインスタンスに敏感な視覚的手がかりを同定・活用すること。
標準的な分類ネットワークおよび学習プロトコルと互換性がある、シンプルで効率的かつ汎用性の高い手法を開発すること。

提案手法

トレーニング中にクラス応答マップ内の局所的最大値（ピーク）の出現を刺激し、各オブジェクトインスタンス内に強い視覚的手がかりを強調する。
これらのピークを逆誤差伝搬することで、オブジェクト境界などの情報量の多い領域にマッピングし、ピーク応答マップ（PRMs）を生成する。
クラスに依存する、インスタンスに依存する、境界に依存する用語を組み合わせたプロポーザル検索メトリックを構築し、マスク予測を向上させる。
PRMsに対して汎用のインスタンスセグメンテーション手法を適用し、追加の設計を最小限に抑えて最終的なインスタンスマスクを抽出する。
標準的な交差エントロピー損失と画像ラベルのみを用いて、任意の現代的CNNアーキテクチャと互換性を持つように、全システムをトレーニングする。

実験結果

リサーチクエスチョン

RQ1クラス応答マップ内の局所的最大値が、弱教師ありインスタンスセグメンテーションにおけるインスタンスに敏感な視覚的手がかりの信頼できる代理として機能できるか？
RQ2トレーニング中にピーク応答をどのように効果的に刺激すれば、局所化の精度を向上させられるか？
RQ3ピークの逆誤差伝搬が、インスタンスマスク抽出に適した細粒度で境界に敏感な表現をどれほど効果的に生成できるか？
RQ4画像ラベルのみで訓練された完全畳み込み分類ネットワークが、インスタンスレベルの監視を一切受けずに、競争力のあるインスタンスセグメンテーション性能を達成できるか？

主な発見

提案手法は、ResNet50を用いた $mAP^{r}_{0.5}$ メトリックでPASCAL VOC 2012で最先端の性能を達成し、平均平均精度（mAP）が26.8%を記録した。
インスタンスに依存する項を省略するとmAPは13.3%に低下し、性能に重要な役割を果たす良好に分離されたインスタンス表現の重要性が示された。
境界に依存する項の導入により性能が2.5%向上し、PRMsが細粒度の境界情報を効果的にエンコードしていることが確認された。
正例マスクをギャラリーとして用いることでmAPは73.3%に上昇し、SPNを著しく上回り、高品質なプロポーザル応用の強い可能性を示した。
アーキテクチャにわたる汎用性が高く、PASCAL VOC 2012でVGG16では22.8%、ResNet50では26.8%のmAPを達成した。
弱教師ありポイントワイズ局所化およびセマンティックセグメンテーションの性能向上にも寄与し、より広範な応用可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。