QUICK REVIEW

[論文レビュー] Where are the Masks: Instance Segmentation with Image-level Supervision

Issam Laradji, David Vázquez|arXiv (Cornell University)|Jul 2, 2019

Advanced Neural Network Applications参考文献 42被引用数 32

ひとこと要約

この論文では、画像ラベルのみを用いてインスタンスセグメンテーションを実行する二段階フレームワークWISEを提案する。分類器がピーク刺激を経て偽マスクを生成し、そのマスクを用いて完全な教師ありMask R-CNNを学習する。本手法は、境界ボックスやオブジェクト数の強い監視を用いる手法を上回る、弱教師あり設定下でのPASCAL VOC 2012における最先端性能を達成した。

ABSTRACT

A major obstacle in instance segmentation is that existing methods often need many per-pixel labels in order to be effective. These labels require large human effort and for certain applications, such labels are not readily available. To address this limitation, we propose a novel framework that can effectively train with image-level labels, which are significantly cheaper to acquire. For instance, one can do an internet search for the term "car" and obtain many images where a car is present with minimal effort. Our framework consists of two stages: (1) train a classifier to generate pseudo masks for the objects of interest; (2) train a fully supervised Mask R-CNN on these pseudo masks. Our two main contribution are proposing a pipeline that is simple to implement and is amenable to different segmentation methods; and achieves new state-of-the-art results for this problem setup. Our results are based on evaluating our method on PASCAL VOC 2012, a standard dataset for weakly supervised methods, where we demonstrate major performance gains compared to existing methods with respect to mean average precision.

研究の動機と目的

インスタンスセグメンテーションにおけるピxls単位のラベルの高コストを低減するため、安価な画像ラベルを活用すること。
弱教師あり設定で、スケーラブルでシンプルかつ汎用性の高いインスタンスセグメンテーションモデルの学習フレームワークを開発すること。
画像ラベルや粗いラベルのみを用いる既存手法を上回る、弱教師ありインスタンスセグメンテーションの性能向上を図ること。
完全な教師ありモデル（例：Mask R-CNN）が、画像ラベルから生成されたノイズが多く不完全な偽マスクを用いても効果的に学習可能かどうかを検証すること。

提案手法

ピーク刺激層を用いて、クラス活性マップ内の活性ピークを特定することで、オブジェクトインスタンスの局所化を実現する。
MCGなどのオブジェクト候補（例：MCG）を用いて、検出されたピーク位置で粗いマスク予測を生成する。
生成されたマスクを偽ラベルとして用い、完全な教師ありMask R-CNNを学習する。
Mask R-CNNは、ノイズが多く不完全な監視信号にも強固であることを活かして、偽マスク上でエンドツーエンドで学習する。
フレームワークはモジュラーであり、密度ベースのPRMやRetinaMaskなどのさまざまな局所化・セグメンテーション部品と互換性を持つ。
主な評価指標としてmAPを用い、PASCAL VOC 2012で評価した。

実験結果

リサーチクエスチョン

RQ1画像ラベルから生成された偽マスクを用いて、完全な教師ありインスタンスセグメンテーションモデル（例：Mask R-CNN）を効果的に学習できるか？
RQ2弱教師ありインスタンスセグメンテーションモデルの性能は、完全な教師ありベースラインや他の弱教師あり手法と比べてどの程度か？
RQ3ノイズが多く不完全な偽マスクが最終的なセグメンテーション品質に与える影響はどの程度で、Mask R-CNNのアーキテクチャがその影響をどのように緩和できるか？
RQ4本フレームワークは、さまざまな局所化およびセグメンテーション部品に一般化可能か？

主な発見

WISEはPASCAL VOC 2012の検証セットで平均平均適合率（mAP）37.5を達成し、画像ラベルのみを用いる先行手法を顕著に上回った。
本手法は、オブジェクト数の強い監視を用いるCholakkalら（2019）をも上回り、二段階の偽ラベルパイプラインの有効性を示した。
偽マスクの平均mAPが25.8と低くても、最終的なMask R-CNNの予測ではmAPが37.5に達しており、ノイズの多いラベルからの強力な一般化が示された。
小型オブジェクトや4つ以上のオブジェクトが存在する画像では性能が著しく低下しており、局所化および候補生成の品質に限界があることが示唆された。
アブレーションスタディにより、WISEと完全な教師ありMask R-CNNとの性能差が、主に小型オブジェクトおよび高オブジェクト数画像で顕著であることが確認された。
定性的な結果から、偽マスクの品質が低くても、WISEは多様なカテゴリにわたり妥当で正確なインスタンスマスクを生成できていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。