[論文レビュー] Causal Intervention for Weakly-Supervised Semantic Segmentation
この論文は CONTA を導入します。後背劇的背後変数の調整を用いた因果介入フレームワークで、弱教師付き意味セグメンテーションにおける文脈混乱を除去し、画像レベル分類子と疑似マスクを改善してセグメンテーション性能を向上させます。
We present a causal inference framework to improve Weakly-Supervised Semantic Segmentation (WSSS). Specifically, we aim to generate better pixel-level pseudo-masks by using only image-level labels -- the most crucial step in WSSS. We attribute the cause of the ambiguous boundaries of pseudo-masks to the confounding context, e.g., the correct image-level classification of "horse" and "person" may be not only due to the recognition of each instance, but also their co-occurrence context, making the model inspection (e.g., CAM) hard to distinguish between the boundaries. Inspired by this, we propose a structural causal model to analyze the causalities among images, contexts, and class labels. Based on it, we develop a new method: Context Adjustment (CONTA), to remove the confounding bias in image-level classification and thus provide better pseudo-masks as ground-truth for the subsequent segmentation model. On PASCAL VOC 2012 and MS-COCO, we show that CONTA boosts various popular WSSS methods to new state-of-the-arts.
研究の動機と目的
- 画像レベルの監督下での文脈混乱に起因する誤導学習を WSSS で動機づけ、形式化する。
- ピクセル、文脈、ラベルをモデル化し、P(Y|do(X)) を導出する因果フレームワーク (SCM) を提案する。
- 観察データからより良い疑似マスクを生成する現実的な backdoor-adjustment ベースのアルゴリズム CONTA を開発する。
- 複数のベースラインとデータセットにわたり、シード領域、疑似マスク、セグメンテーションマスクの改善を示す。
提案手法
- ピクセルレベルの画像 X、文脈 C、画像レベルのラベル Y を結ぶ構造的因果モデルを定式化する。
- backdoor 調整 P(Y|do(X)) = sum_c P(Y|X, M=f(X,c)) P(c) を用いて混乱効果を除去する。
- 観測できない混乱因子集合 C をクラス固有の平均マスクで近似し、M_t を反復的エム推定のような更新として作成する。
- 反復的に実行する: (i) P(Y|do(X)) で分類器を訓練する; (ii) CAM のシード領域と疑似マスクを生成する; (iii) セグメンテーションモデルを訓練する; (iv) 式 M_{t+1} = sum_i alpha_i c_i P(c_i) によって混乱因子マスク M_t を更新する。
- research_questions_narrowed_to_2-5_queries_N/A
実験結果
リサーチクエスチョン
- RQ1画像レベル分類における文脈混乱を緩和して WSSS の疑似マスクをより正確に生成できるか。
- RQ2CONTA による backdoor-adjusted 因果を適用することで、シード領域、疑似マスク、最終セグメンテーションの改善がベースライン間で見られるか。
- RQ3過剰適合を避けつつ最適な改善をもたらす CONTA の反復回数はいくつか。
- RQ4どのバックボーンブロックと混乱因子表現が CONTA からの利得を最大化するか。
- RQ5CONTA はデータセット(PASCAL VOC 2012 および MS-COCO)および異なる WSSS モデルで有効か。
主な発見
| 方法 | バックボーン | val mIoU (%) | test mIoU (%) |
|---|---|---|---|
| AffinityNet | ResNet-38 | 61.7 | 63.7 |
| RRM | ResNet-38 | 62.6 | 62.9 |
| SSDD | ResNet-38 | 64.9 | 65.5 |
| SEAM | ResNet-38 | 64.5 | 65.7 |
| IRNet | ResNet-50 | 63.5 | 64.8 |
| IRNet+CONTA | ResNet-50 | 65.3 | 66.1 |
| SEAM+CONTA | ResNet-38 | 66.1 | 66.7 |
| SEC+CONTA | VGG-16 | 23.7 | n.a. |
| SEAM+CONTA | ResNet-38 | 32.8 | n.a. |
| IRNet+CONTA | IRNet+CONTA | 33.4 | n.a. |
- CONTA は PASCAL VOC 2012 のベースラインに対して CAM のシード領域、疑似マスク、セグメンテーションマスクを改善する。
- VOC 2012 で、CONTA は SEAM+CONTA(ResNet-38)で val が 66.1%、test が 66.7% の最先端 mIoU を達成。
- CONTA は複数のベースラインで適用した場合、平均で 0.9%(CAM)、2.0%(疑似マスク)、2.0%(セグメンテーションマスク)の利得を提供。
- VOC 2012 では IRNet+CONTA が val 65.3%、test 66.1% の mIoU を達成; SEAM+CONTA は val 66.1%、test 66.7% 。
- MS-COCO では SEC+CONTA が val セットで 23.7% の mIoU を達成し、従来の最高を 1.3% 上回った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。