QUICK REVIEW

[論文レビュー] Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

Yude Wang, Jie Zhang|arXiv (Cornell University)|Apr 9, 2020

Advanced Neural Network Applications参考文献 38被引用数 57

ひとこと要約

SEAM は自己教師付きの等変性正則化とピクセル相関モジュールを導入し、画像レベルの監督下でクラス活性マップを洗練させ、PASCAL VOC 2012 における弱教師付き意味セグメンテーションで最先端を達成。

ABSTRACT

Image-level weakly supervised semantic segmentation is a challenging problem that has been deeply studied in recent years. Most of advanced solutions exploit class activation map (CAM). However, CAMs can hardly serve as the object mask due to the gap between full and weak supervisions. In this paper, we propose a self-supervised equivariant attention mechanism (SEAM) to discover additional supervision and narrow the gap. Our method is based on the observation that equivariance is an implicit constraint in fully supervised semantic segmentation, whose pixel-level labels take the same spatial transformation as the input images during data augmentation. However, this constraint is lost on the CAMs trained by image-level supervision. Therefore, we propose consistency regularization on predicted CAMs from various transformed images to provide self-supervision for network learning. Moreover, we propose a pixel correlation module (PCM), which exploits context appearance information and refines the prediction of current pixel by its similar neighbors, leading to further improvement on CAMs consistency. Extensive experiments on PASCAL VOC 2012 dataset demonstrate our method outperforms state-of-the-art methods using the same level of supervision. The code is released online.

研究の動機と目的

セマンティックセグメンテーションにおける完全 supervision と弱い supervision とのギャップを動機づける。
変換された入力間で CAM の一貫性を強制する自己教師付き等変正規化を提案する。
文脈情報を取り入れたアフィニティで CAM を洗練させるピクセル相関モジュールを導入する。
CAM を訓練するために等変なクロス正規化損失を伴うシアムネットワークアーキテクチャを開発する。
画像レベルラベルのみを用いて PASCAL VOC 2012 で最先端の性能を示す。

提案手法

アフィン変換下で CAM の一貫性を強制するため、共有重みのシアムネットワークに等変正規化を組み込む (ER loss)。
Self-attention に類する機構を用いた学習済みピクセルアフィニティを介して CAM を洗練させるピクセル相関モジュール (PCM) を統合する。
ブランチ間の等変クロス正規化 (ECR) 損失を通じて CAM の洗練を等変監督と統合する。
推論時に前景/背景のバランスを前景-背景スコアリングと背景閾値で処理する。
画像レベルラベルを用いて多ラベルソフトマージン損失で訓練し、ECR 損失に対して OHEM を補助的に用い；任意で CRF ポスト処理を適用。

実験結果

リサーチクエスチョン

RQ1アフィン変換された入力間での CAM の一貫性は、追加の注釈なしに WSSS の自己監督を提供できるか？
RQ2ピクセル相関モジュールは弱監督下で CAM の安定性とオブジェクト形状との整合性を改善するか？
RQ3等変正規化と PCM の組み合わせが CAM の品質とセグメンテーション性能に与える総合効果は？
RQ4提案された SEAM フレームワークは画像レベルラベルのみで PASCAL VOC 2012 で最先端の結果を達成できるか？
RQ5さまざまなアフィン変換は等変正規化の有効性にどう影響するか？

主な発見

SEAM は CAM の品質を向上させ、画像レベルの監督下でベースラインより高い mIoU をPASCAL VOC 2012で達成する。
ER、PCM、OHEM、任意の CRF を含む完全な SEAM パイプラインは、VOC の訓練/拡張設定で最大 56.83% の mIoU に達する。
修正された CAM と AffinityNet ベースの擬似ラベルを使用すると VOC 訓練セットで 63.61% mIoU を達成し、強力な完全監督セグメンテーションを可能にする。
SEAM は画像レベル監督下で VOC 2012 テストセットにおいて最先端の性能を達成し、報告された表では検証 mIoU 約 64.5、テスト mIoU 65.7。
SEAM の CAM は過小活性化や過剰活性化が少なく、多尺度テストでも一貫性が高い。
PCM は境界感度のあるアフィニティを学習し、物体の活性カバレッジをより完全にし、形状の忠実性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。