[논문 리뷰] Semi-supervised Semantic Segmentation with Prototype-based Consistency Regularization
tldr: 선형 예측기에 대한 일관성 손실을 갖는 프로토타입 기반 예측기를 교사-학생 프레임워크 내에서 도입하여, intra-class 변이를 감소시켜 반-지도 의미론적 분할에서 라벨 전파를 개선합니다.
Semi-supervised semantic segmentation requires the model to effectively propagate the label information from limited annotated images to unlabeled ones. A challenge for such a per-pixel prediction task is the large intra-class variation, i.e., regions belonging to the same class may exhibit a very different appearance even in the same picture. This diversity will make the label propagation hard from pixels to pixels. To address this problem, we propose a novel approach to regularize the distribution of within-class features to ease label propagation difficulty. Specifically, our approach encourages the consistency between the prediction from a linear predictor and the output from a prototype-based predictor, which implicitly encourages features from the same pseudo-class to be close to at least one within-class prototype while staying far from the other between-class prototypes. By further incorporating CutMix operations and a carefully-designed prototype maintenance strategy, we create a semi-supervised semantic segmentation algorithm that demonstrates superior performance over the state-of-the-art methods from extensive experimental evaluation on both Pascal VOC and Cityscapes benchmarks.
연구 동기 및 목표
- semi-supervised semantic segmentation에서 라벨 전파를 방해하는 큰 intra-class 변이를 해결합니다.
- 프로토타입 기반 예측기와 클래스 내 특성 분포를 규제하기 위한 일관성 손실을 제안합니다.
- CutMix 및 프로토타입 유지 관리 전략을 활용하여 강건성과 성능을 향상시킵니다.
- Pascal VOC 2012 및 Cityscapes에서 최첨단 방법과 비교하여 우수한 성능을 입증합니다.
제안 방법
- 학습 가능한 선형 예측기와 프로토타입 기반 예측기(동적 프로토타입 세트 포함)로 구성된 두 개의 헤드 예측기 설정을 사용합니다.
- 선형 예측기 출력(교사)과 프로토타입 예측기 출력(학생) 간의 일관성을 촉진하여 같은 클래스의 특징이 프로토타입 주위로 뭉치고 다른 클래스와는 분리되도록 특징을 정규화합니다.
- 혼합되지 않은 라벨이 없는 이미지에서도 일관성을 보장하고 강건성을 높이기 위해 CutMix를 도입합니다.
- 라벨 픽셀과 가짜 라벨링된 픽셀을 이용한 실행 평균(running average)을 통해 프로토타입을 유지 관리하고 업데이트합니다.
- 교사-학생 프레임워크 내에서 학습하며, 교사는 라벨이 없는 데이터에 대해 가짜 라벨을 제공하고 교사의 가중치는 학생의 EMA(지수이동평균)입니다.
실험 결과
연구 질문
- RQ1프로토타입 기반 표현이 반-지도 의미론적 분할에서 intra-class 변이를 완화하는 데 어떻게 도움이 될 수 있는가?
- RQ2 선형 예측기와 프로토타입 기반 예측기 간의 일관성 강제가 라벨 전파와 분할 정확도를 향상시키는가?
- RQ3 CutMix와 프로토타입 유지 관리가 반-지도 학습 성능에 미치는 영향은 무엇인가?
- RQ4 클래스당 몇 개의 프로토타입이 표현력과 계산 비용 사이의 최적 균형을 이루는가?
- RQ5 본 방법이 표준 벤치마크에서 기존의 반-지도 분할 방법을 능가할 수 있는가?
주요 결과
| Method | 1/16 | 1/8 | 1/4 | 1/2 | Full |
|---|---|---|---|---|---|
| Ours | 70.06 | 74.71 | 77.16 | 78.49 | 80.65 |
- Pascal VOC 2012(1/16 ~ Full 라벨)에서 본 방법은 각각 70.06%, 74.71%, 77.16%, 78.49%, 80.65% mIoU를 달성합니다(표 1에 열거된 방법 중 최상).
- 제안 방식은 감독 학습(Base)만의 기준선 대비 상당한 이득을 보이고, 여러 최첨단 반-지도 방법을 라벨 Regime 전반에 걸쳐 능가합니다.
- 프로토타입 기반 일관성 정규화는 같은 클래스의 특징 분포를 더 촘촘하게 만들어 픽셀-대-픽셀 라벨 전파를 돕고(T-SNE 시각 evidence).
- Ablation 연구에서 선형 예측기, 프로토타입 예측기 및 업데이트 메커니즘을 포함한 전체 모델이 최적으로 나타났습니다(표 4).
- 클래스당 다수의 프로토타입을 사용하는 것이 성능을 개선하는 반면, 프로토타입이 너무 많으면 수익 감소가 나타납니다(최적은 약 4개).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.