Skip to main content
QUICK REVIEW

[論文レビュー] Causal Intervention for Weakly-Supervised Semantic Segmentation

Dong Zhang, Hanwang Zhang|arXiv (Cornell University)|Sep 26, 2020
Domain Adaptation and Few-Shot Learning参考文献 76被引用数 70
ひとこと要約

この論文は CONTA を導入します。後背劇的背後変数の調整を用いた因果介入フレームワークで、弱教師付き意味セグメンテーションにおける文脈混乱を除去し、画像レベル分類子と疑似マスクを改善してセグメンテーション性能を向上させます。

ABSTRACT

We present a causal inference framework to improve Weakly-Supervised Semantic Segmentation (WSSS). Specifically, we aim to generate better pixel-level pseudo-masks by using only image-level labels -- the most crucial step in WSSS. We attribute the cause of the ambiguous boundaries of pseudo-masks to the confounding context, e.g., the correct image-level classification of "horse" and "person" may be not only due to the recognition of each instance, but also their co-occurrence context, making the model inspection (e.g., CAM) hard to distinguish between the boundaries. Inspired by this, we propose a structural causal model to analyze the causalities among images, contexts, and class labels. Based on it, we develop a new method: Context Adjustment (CONTA), to remove the confounding bias in image-level classification and thus provide better pseudo-masks as ground-truth for the subsequent segmentation model. On PASCAL VOC 2012 and MS-COCO, we show that CONTA boosts various popular WSSS methods to new state-of-the-arts.

研究の動機と目的

  • 画像レベルの監督下での文脈混乱に起因する誤導学習を WSSS で動機づけ、形式化する。
  • ピクセル、文脈、ラベルをモデル化し、P(Y|do(X)) を導出する因果フレームワーク (SCM) を提案する。
  • 観察データからより良い疑似マスクを生成する現実的な backdoor-adjustment ベースのアルゴリズム CONTA を開発する。
  • 複数のベースラインとデータセットにわたり、シード領域、疑似マスク、セグメンテーションマスクの改善を示す。

提案手法

  • ピクセルレベルの画像 X、文脈 C、画像レベルのラベル Y を結ぶ構造的因果モデルを定式化する。
  • backdoor 調整 P(Y|do(X)) = sum_c P(Y|X, M=f(X,c)) P(c) を用いて混乱効果を除去する。
  • 観測できない混乱因子集合 C をクラス固有の平均マスクで近似し、M_t を反復的エム推定のような更新として作成する。
  • 反復的に実行する: (i) P(Y|do(X)) で分類器を訓練する; (ii) CAM のシード領域と疑似マスクを生成する; (iii) セグメンテーションモデルを訓練する; (iv) 式 M_{t+1} = sum_i alpha_i c_i P(c_i) によって混乱因子マスク M_t を更新する。
  • research_questions_narrowed_to_2-5_queries_N/A

実験結果

リサーチクエスチョン

  • RQ1画像レベル分類における文脈混乱を緩和して WSSS の疑似マスクをより正確に生成できるか。
  • RQ2CONTA による backdoor-adjusted 因果を適用することで、シード領域、疑似マスク、最終セグメンテーションの改善がベースライン間で見られるか。
  • RQ3過剰適合を避けつつ最適な改善をもたらす CONTA の反復回数はいくつか。
  • RQ4どのバックボーンブロックと混乱因子表現が CONTA からの利得を最大化するか。
  • RQ5CONTA はデータセット(PASCAL VOC 2012 および MS-COCO)および異なる WSSS モデルで有効か。

主な発見

方法バックボーンval mIoU (%)test mIoU (%)
AffinityNetResNet-3861.763.7
RRMResNet-3862.662.9
SSDDResNet-3864.965.5
SEAMResNet-3864.565.7
IRNetResNet-5063.564.8
IRNet+CONTAResNet-5065.366.1
SEAM+CONTAResNet-3866.166.7
SEC+CONTAVGG-1623.7n.a.
SEAM+CONTAResNet-3832.8n.a.
IRNet+CONTAIRNet+CONTA33.4n.a.
  • CONTA は PASCAL VOC 2012 のベースラインに対して CAM のシード領域、疑似マスク、セグメンテーションマスクを改善する。
  • VOC 2012 で、CONTA は SEAM+CONTA(ResNet-38)で val が 66.1%、test が 66.7% の最先端 mIoU を達成。
  • CONTA は複数のベースラインで適用した場合、平均で 0.9%(CAM)、2.0%(疑似マスク)、2.0%(セグメンテーションマスク)の利得を提供。
  • VOC 2012 では IRNet+CONTA が val 65.3%、test 66.1% の mIoU を達成; SEAM+CONTA は val 66.1%、test 66.7% 。
  • MS-COCO では SEC+CONTA が val セットで 23.7% の mIoU を達成し、従来の最高を 1.3% 上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。