QUICK REVIEW

[論文レビュー] Causal Intervention for Weakly-Supervised Semantic Segmentation

Dong Zhang, Hanwang Zhang|arXiv (Cornell University)|Sep 26, 2020

Domain Adaptation and Few-Shot Learning参考文献 76被引用数 70

ひとこと要約

この論文は CONTA を導入します。後背劇的背後変数の調整を用いた因果介入フレームワークで、弱教師付き意味セグメンテーションにおける文脈混乱を除去し、画像レベル分類子と疑似マスクを改善してセグメンテーション性能を向上させます。

ABSTRACT

We present a causal inference framework to improve Weakly-Supervised Semantic Segmentation (WSSS). Specifically, we aim to generate better pixel-level pseudo-masks by using only image-level labels -- the most crucial step in WSSS. We attribute the cause of the ambiguous boundaries of pseudo-masks to the confounding context, e.g., the correct image-level classification of "horse" and "person" may be not only due to the recognition of each instance, but also their co-occurrence context, making the model inspection (e.g., CAM) hard to distinguish between the boundaries. Inspired by this, we propose a structural causal model to analyze the causalities among images, contexts, and class labels. Based on it, we develop a new method: Context Adjustment (CONTA), to remove the confounding bias in image-level classification and thus provide better pseudo-masks as ground-truth for the subsequent segmentation model. On PASCAL VOC 2012 and MS-COCO, we show that CONTA boosts various popular WSSS methods to new state-of-the-arts.

研究の動機と目的

画像レベルの監督下での文脈混乱に起因する誤導学習を WSSS で動機づけ、形式化する。
ピクセル、文脈、ラベルをモデル化し、P(Y|do(X)) を導出する因果フレームワーク (SCM) を提案する。
観察データからより良い疑似マスクを生成する現実的な backdoor-adjustment ベースのアルゴリズム CONTA を開発する。
複数のベースラインとデータセットにわたり、シード領域、疑似マスク、セグメンテーションマスクの改善を示す。

提案手法

ピクセルレベルの画像 X、文脈 C、画像レベルのラベル Y を結ぶ構造的因果モデルを定式化する。
backdoor 調整 P(Y|do(X)) = sum_c P(Y|X, M=f(X,c)) P(c) を用いて混乱効果を除去する。
観測できない混乱因子集合 C をクラス固有の平均マスクで近似し、M_t を反復的エム推定のような更新として作成する。
反復的に実行する： (i) P(Y|do(X)) で分類器を訓練する； (ii) CAM のシード領域と疑似マスクを生成する； (iii) セグメンテーションモデルを訓練する； (iv) 式 M_{t+1} = sum_i alpha_i c_i P(c_i) によって混乱因子マスク M_t を更新する。
research_questions_narrowed_to_2-5_queries_N/A

実験結果

リサーチクエスチョン

RQ1画像レベル分類における文脈混乱を緩和して WSSS の疑似マスクをより正確に生成できるか。
RQ2CONTA による backdoor-adjusted 因果を適用することで、シード領域、疑似マスク、最終セグメンテーションの改善がベースライン間で見られるか。
RQ3過剰適合を避けつつ最適な改善をもたらす CONTA の反復回数はいくつか。
RQ4どのバックボーンブロックと混乱因子表現が CONTA からの利得を最大化するか。
RQ5CONTA はデータセット（PASCAL VOC 2012 および MS-COCO）および異なる WSSS モデルで有効か。

主な発見

方法	バックボーン	val mIoU (%)	test mIoU (%)
AffinityNet	ResNet-38	61.7	63.7
RRM	ResNet-38	62.6	62.9
SSDD	ResNet-38	64.9	65.5
SEAM	ResNet-38	64.5	65.7
IRNet	ResNet-50	63.5	64.8
IRNet+CONTA	ResNet-50	65.3	66.1
SEAM+CONTA	ResNet-38	66.1	66.7
SEC+CONTA	VGG-16	23.7	n.a.
SEAM+CONTA	ResNet-38	32.8	n.a.
IRNet+CONTA	IRNet+CONTA	33.4	n.a.

CONTA は PASCAL VOC 2012 のベースラインに対して CAM のシード領域、疑似マスク、セグメンテーションマスクを改善する。
VOC 2012 で、CONTA は SEAM+CONTA（ResNet-38）で val が 66.1%、test が 66.7% の最先端 mIoU を達成。
CONTA は複数のベースラインで適用した場合、平均で 0.9%（CAM）、2.0%（疑似マスク）、2.0%（セグメンテーションマスク）の利得を提供。
VOC 2012 では IRNet+CONTA が val 65.3%、test 66.1% の mIoU を達成； SEAM+CONTA は val 66.1%、test 66.7% 。
MS-COCO では SEC+CONTA が val セットで 23.7% の mIoU を達成し、従来の最高を 1.3% 上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。