[논문 리뷰] Causal Intervention for Weakly-Supervised Semantic Segmentation
본 논문은 backdoor 보정을 이용한 인과적 개입 프레임워크 CONTA를 도입하여 약지도시(semi-supervised) 의미론적 분할에서 컨텍스트 혼란을 제거하고, 이미지 수준 분류기 및 의사 마스크를 개선하여 분할 성능을 향상시킨다.
We present a causal inference framework to improve Weakly-Supervised Semantic Segmentation (WSSS). Specifically, we aim to generate better pixel-level pseudo-masks by using only image-level labels -- the most crucial step in WSSS. We attribute the cause of the ambiguous boundaries of pseudo-masks to the confounding context, e.g., the correct image-level classification of "horse" and "person" may be not only due to the recognition of each instance, but also their co-occurrence context, making the model inspection (e.g., CAM) hard to distinguish between the boundaries. Inspired by this, we propose a structural causal model to analyze the causalities among images, contexts, and class labels. Based on it, we develop a new method: Context Adjustment (CONTA), to remove the confounding bias in image-level classification and thus provide better pseudo-masks as ground-truth for the subsequent segmentation model. On PASCAL VOC 2012 and MS-COCO, we show that CONTA boosts various popular WSSS methods to new state-of-the-arts.
연구 동기 및 목표
- 이미지 수준 감독하에서 WSSS에서 컨텍스트 혼란으로 인해 잘못 학습되는 문제를 동기화하고 형식화한다.
- 픽셀, 컨텍스트, 레이블을 모델링하고 P(Y|do(X))를 구하는 방법을 도출하기 위한 구조적 인과 모델(SCM)을 제안한다.
- 관찰 데이터로부터 더 나은 의사 마스크를 생성하기 위한 BACKDOOR 보정 기반 알고리즘 CONTA를 개발한다.
- 여러 베이스라인과 데이터셋에서 시드 영역, 의사 마스크, 그리고 분할 마스크의 품질이 개선되는 것을 보여준다.
제안 방법
- 픽셀 수준 이미지 X, 컨텍스트 C, 이미지 수준 레이블 Y를 연결하는 구조적 인과 모델을 형식화한다.
- backdoor 보정 P(Y|do(X)) = sum_c P(Y|X, M=f(X,c)) P(c)로 혼란 효과를 제거한다.
- 관찰되지 않은 교란 요인 집합 C를 클래스별 평균 마스크로 근사하고 M_t를 반복적인 EM 유사 업데이트로 생성한다.
- 반복적으로 수행: (i) P(Y|do(X))로 분류기를 학습; (ii) CAM 시드 영역 및 의사 마스크를 생성; (iii) 분할 모델 학습; (iv) 방정식 M_{t+1} = sum_i alpha_i c_i P(c_i)로 교란 요인 마스크 M_t를 업데이트.
- research_questions_narrowed_to_2-5_queries_N/A
실험 결과
연구 질문
- RQ1이미지 수준 분류에서의 컨텍스트 혼란을 완화해 WSSS용 더 정확한 의사 마스크를 생성할 수 있는가?
- RQ2CONTA를 통한 backdoor 보정 인과성이 베이스라인 전반에서 시드 영역, 의사 마스크 및 최종 분할을 개선하는가?
- RQ3과도한 과적합 없이 최적의 개선을 얻기 위해 CONTA의 반복 라운드 수는 얼마나 될까?
- RQ4어떤 백본 블록과 교란 요인 표현이 CONTA의 이익을 극대화하는가?
- RQ5CONTA가 PASCAL VOC 2012 및 MS-COCO와 같은 다양한 WSSS 모델에서 효과적이며 다양한 데이터셋에 일반화되는가?
주요 결과
| 방법 | 백본 | 검증 mIoU (%) | 테스트 mIoU (%) |
|---|---|---|---|
| AffinityNet | ResNet-38 | 61.7 | 63.7 |
| RRM | ResNet-38 | 62.6 | 62.9 |
| SSDD | ResNet-38 | 64.9 | 65.5 |
| SEAM | ResNet-38 | 64.5 | 65.7 |
| IRNet | ResNet-50 | 63.5 | 64.8 |
| IRNet+CONTA | ResNet-50 | 65.3 | 66.1 |
| SEAM+CONTA | ResNet-38 | 66.1 | 66.7 |
| SEC+CONTA | VGG-16 | 23.7 | n.a. |
| SEAM+CONTA | ResNet-38 | 32.8 | n.a. |
| IRNet+CONTA | IRNet+CONTA | 33.4 | n.a. |
- CONTA가 PASCAL VOC 2012에서 베이스라인 대비 CAM 시드 영역, 의사 마스크, 및 분할 마스크를 개선한다.
- VOC 2012에서 CONTA는 SEAM+CONTA(ResNet-38)로 val에서 66.1%, test에서 66.7%의 최상위 성능인 66.1% mIoU를 달성한다.
- CONTA는 여러 베이스라인에 적용 시 CAM 0.9%, 의사 마스크 2.0%, 분할 마스크 2.0%의 평균 이득을 제공한다.
- VOC 2012에서 IRNet+CONTA는 val 65.3%, test 66.1% mIoU에 도달; SEAM+CONTA는 val 66.1%, test 66.7%에 도달.
- MS-COCO에서 SEC+CONTA는 val 세트에서 23.7% mIoU를 달성하며 이전 최고보다 1.3% 포인트를 상회한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.