Skip to main content
QUICK REVIEW

[논문 리뷰] ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

Lihe Yang, Wei Zhuo|arXiv (Cornell University)|2021. 06. 09.
Advanced Neural Network Applications참고 문헌 58인용 수 21
한 줄 요약

이 논문은 강력한 데이터 증강(Strong Data Augmentations, SDA)을 도입하여 교사-학생 예측을 분리하고 노이즈가 있는 가짜 레이블에 대한 강건성을 향상시킴으로써, 자기학습(self-training)을 통한 준지도 학습 세그멘테이션을 크게 향상시키는 ST++를 제안한다. 또한 종합적인 예측 안정성에 기반한 이미지 수준의 선택적 재학습을 통해 벤치마크 전반에서 최신 기술 수준(SOTA) 성능을 달성하며, 특히 저레이블 환경에서 이전 방법들에 비해 큰 격차를 확보한다. 반복적 재학습이나 복잡한 구성 요소 없이도 성능을 높였다.

ABSTRACT

Self-training via pseudo labeling is a conventional, simple, and popular pipeline to leverage unlabeled data. In this work, we first construct a strong baseline of self-training (namely ST) for semi-supervised semantic segmentation via injecting strong data augmentations (SDA) on unlabeled images to alleviate overfitting noisy labels as well as decouple similar predictions between the teacher and student. With this simple mechanism, our ST outperforms all existing methods without any bells and whistles, e.g., iterative re-training. Inspired by the impressive results, we thoroughly investigate the SDA and provide some empirical analysis. Nevertheless, incorrect pseudo labels are still prone to accumulate and degrade the performance. To this end, we further propose an advanced self-training framework (namely ST++), that performs selective re-training via prioritizing reliable unlabeled images based on holistic prediction-level stability. Concretely, several model checkpoints are saved in the first stage supervised training, and the discrepancy of their predictions on the unlabeled image serves as a measurement for reliability. Our image-level selection offers holistic contextual information for learning. We demonstrate that it is more suitable for segmentation than common pixel-wise selection. As a result, ST++ further boosts the performance of our ST. Code is available at https://github.com/LiheYoung/ST-PlusPlus.

연구 동기 및 목표

  • 노이즈가 있는 레이블 일반화 및 예측 결합 문제로 인해 약화된 고전적 자기학습 기반 접근을 재활성화하여 준지도 학습 세그멘테이션의 강력한 베이스라인으로 삼는 것.
  • 강력한 데이터 증강(SDA)이 교사 및 학생 모델의 예측을 어떻게 분리하고 노이즈가 있는 가짜 레이블에 대한 강건성을 향상시키는지 조사하는 것.
  • 신뢰할 수 없는 가짜 레이블로 인한 확인 편향(confirmation bias) 문제를 해결하기 위해, 예측 안정성에 기반한 신뢰도 높은 비라벨 이미지를 우선순위로 하는 선택적 재학습 메커니즘을 제안하는 것.
  • 세그멘테이션 작업에서 이미지 수준의 선택이 픽셀 수준의 선택보다 더 효과적인 이유는 더 나은 문맥 일관성 덕분이므로 이를 입증하는 것.
  • 반복적 재학습이나 수동 임계값 설정 없이도 복잡한 최신 기술 수준 방법들을 능가하는 단순하지만 매우 효과적인 프레임워크를 구축하는 것.

제안 방법

  • 비라벨 이미지에 색상 왜곡, 흐림, Grayscale 등의 강력한 데이터 증강(SDA)을 적용함으로써 강력한 자기학습 기반 모델(ST)을 도입하여, 과적합을 줄이고 교사-학생 모델 간의 예측을 분리한다.
  • ST++에서는 두 단계로 구성된 학습 파이프라인을 사용하며, 초기 지도 학습 동안 모델 체크포인트를 저장하고, 이러한 체크포인트 간의 예측 차이를 분석하여 비라벨 이미지 예측의 안정성과 신뢰도를 측정한다.
  • 예측 안정성이 가장 높은(신뢰도가 높은) 비라벨 이미지를 우선순위로 하여 첫 번째 재학습 단계에서 선택적 재학습을 수행하며, 이들 이미지의 고신뢰도 가짜 레이블을 활용해 학생 모델을 향상시킨 후, 나머지 덜 신뢰도 있는 이미지들을 재레이블링한다.
  • 선택 기준으로 이미지 수준의 안정성을 사용한다—다양한 모델 체크포인트를 거쳐 변화하는 가짜 마스크의 일관성을 평가함으로써 종합적인 문맥 정보를 확보하며, 픽셀 수준의 신뢰도 임계값보다 세그멘테이션 작업에 더 적합하다.
  • 신뢰도 높은 이미지를 먼저 처리하는 점진적 재학습 전략을 적용하여 확인 편향을 줄이고 전체 비라벨 세트의 가짜 레이블 품질을 향상시킨다.
  • 초기 설정값의 변화에 대해 매우 강건한 성능을 보이며, 50% 및 75% 선택 비율에서도 뛰어난 성능을 기록하며, 선택적 반복 재학습 단계를 추가로 도입하면 성능 향상이 더 가능함을 보여준다.

실험 결과

연구 질문

  • RQ1강력한 데이터 증강을 적용한 단순한 자기학습 프레임워크가 반복적 재학습이나 수동 임계값 설정 없이도 복잡한 최신 기술 수준 방법들을 능가할 수 있는가?
  • RQ2강력한 데이터 증강(SDA)이 교사 및 학생 예측을 얼마나 효과적으로 분리하고 노이즈가 있는 가짜 레이블에 대한 과적합을 줄이는가?
  • RQ3세그멘테이션 작업에서 예측 안정성에 기반한 이미지 수준의 선택이 픽셀 수준의 선택보다 가짜 레이블 품질 향상에 더 효과적인가?
  • RQ4종합적인 안정성에 기반한 선택적 재학습이 무작위 또는 단일 단계 재학습 파이프라인보다 더 높은 성능을 내는가?
  • RQ5선택적 이미지 안정성 기반 선택과 SDA를 결합한 단순한 비반복적 프레임워크도 여전히 최신 기술 수준(SOTA) 성능을 달성할 수 있는가?

주요 결과

  • 강력한 데이터 증강을 적용한 제안된 ST 기반 모델은 반복적 재학습이나 복잡한 구성 요소 없이도 Pascal VOC에서 최신 기술 수준(SOTA) 성능을 달성하며, 이전 방법들에 비해 큰 격차를 확보한다.
  • 1/16 레이블 제약 조건(92장의 이미지)에서 ST++는 68.3% mIoU를 기록했으며, 이는 단일 단계 ST 기반 모델의 65.2% mIoU보다 뚜렷한 향상이다. 이는 선택적 재학습의 효과를 입증한다.
  • ST++에서 이미지 수준의 선택적 재학습은 랜덤 두 단계 재학습 및 픽셀 수준 선택보다 항상 뛰어난 성능을 보이며, 1/4 레이블 제약 조건에서 75.4% mIoU를 달성했고, 각각 랜덤 재학습와 픽셀 수준 선택은 74.7% 및 74.9% mIoU를 기록했다.
  • 제거 분석 결과, 가장 안정적인 이미지의 50%를 선택하는 것만으로도 매우 효과적이며, 75% 선택 비율로는 74.5% mIoU로 약간의 추가 향상이 이루어졌다.
  • 선택 비율이 25%, 50%, 75%일 때 성능가 안정적이며, 이는 일반화 능력이 뛰어나다는 것을 시사한다.
  • 선택적 반복 재학습 단계를 추가로 도입하면 1/4 레이블 제약 조건에서 성능이 75.2% mIoU로 더욱 향상되었으며, 이는 선택적으로 적용된 반복 보정이 유익함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.