[논문 리뷰] PseudoSeg: Designing Pseudo Labels for Semantic Segmentation
PseudoSeg은 디코더 출력과 Grad-CAM 기반 맵으로 융합된 잘 보정된 소프트 의사 레이블을 활용하여 라벨이 없는 또는 약하게 라벨링된 데이터로 의미 분할을 개선하는 한 단계 반지도 학습 프레임워크를 제시합니다. VOC2012와 COCO에서 데이터가 적은 상황과 많은 상황 모두에서 성능 향상을 보입니다.
Recent advances in semi-supervised learning (SSL) demonstrate that a combination of consistency regularization and pseudo-labeling can effectively improve image classification accuracy in the low-data regime. Compared to classification, semantic segmentation tasks require much more intensive labeling costs. Thus, these tasks greatly benefit from data-efficient training methods. However, structured outputs in segmentation render particular difficulties (e.g., designing pseudo-labeling and augmentation) to apply existing SSL strategies. To address this problem, we present a simple and novel re-design of pseudo-labeling to generate well-calibrated structured pseudo labels for training with unlabeled or weakly-labeled data. Our proposed pseudo-labeling strategy is network structure agnostic to apply in a one-stage consistency training framework. We demonstrate the effectiveness of the proposed pseudo-labeling strategy in both low-data and high-data regimes. Extensive experiments have validated that pseudo labels generated from wisely fusing diverse sources and strong data augmentation are crucial to consistency training for segmentation. The source code is available at https://github.com/googleinterns/wss.
연구 동기 및 목표
- 라벨이 없는 또는 약하게 라벨링된 데이터를 활용하여 픽셀 수준 라벨에 대한 의존도를 줄이고 의미 분할을 수행한다.
- 세분화 출력의 노이즈에 강한 잘 보정된 구조적 의사 레이블을 설계한다.
- 기존의 세분화 아키텍처와 통합 가능하도록 네트워크 독립적 프레임워크를 만든다.
- 표준 벤치마크(VOC12, COCO)에서 데이터가 적은 상황과 많은 상황 모두에서 효과를 입증한다.
- 세분화에서 SSL의 데이터 증가 및 교차 소스 융합이 역할을 조사한다.
제안 방법
- 픽셀-레이블 데이터에 대한 감독 손실과 비표시 데이터에 대한 일관성 손실을 결합한 한 단계 학습 목표를 제안한다.
- 디코더 예측과 자기-주의 Grad-CAM(SGC) 맵을 융합하여 구조화된 의사 레이블을 생성한다.
- 결합된 예측을 정규화하고 선명하게 만들어 소프트 의사 레이블을 생성하는 보정된 융합 함수를 사용한다.
- 강하게 증강된 예측이 보정된 소프트 의사 레이블과 일치하도록 모델을 학습시킨다.
- Grad-CAM을 이미지 수준 Grad-CAM으로 대체하고 분류기 감독을 강화하여 이미지 수준 라벨을 도입한다.
실험 결과
연구 질문
- RQ1다양한 소스에서 얻은 잘 보정된 소프트 의사 레이블이 의미 분할의 일관성 학습을 향상시킬 수 있는가?
- RQ2보정된 방식으로 디코더 출력과 Grad-CAM 기반 로컬라이제이션을 융합하는 것이 두 소스 중 어느 하나를 단독으로 사용하는 것보다 더 좋은 의사 레이블을 산출하는가?
- RQ3데이터 증강 강도와 백본이 분할에서 SSL 성능에 어떻게 영향을 미치는가?
- RQ4제안된 한 단계 프레임워크가 픽셀 수준+비표시 데이터와 픽셀 수준+이미지 수준 라벨 데이터에서도 효과적인가?
- RQ5소프트 의사 레이블과 하드 의사 레이블 및 온도 샤프닝이 세분화 보정 및 정확도에 미치는 영향은 무엇인가?
주요 결과
- 제안된 PseudoSeg 방법은 VOC12와 COCO에서 픽셀 수준 라벨과 비표시 데이터를 사용할 때 강력한 감독 기반선 대비 일관되게 개선을 보인다.
- 디코더 예측과 SGC 맵의 보정된 융합은 어느 하나의 소스 단독보다 더 좋은 의사 레이블을 제공하며 교정이 우수하고(ECE가 더 낮다).
- 소프트 의사 레이블과 온도 샤프닝을 사용하는 것이 하드 의사 레이블이나 임계치 설정보다 성능이 더 좋다.
- 다양한 데이터 분할에 걸쳐 VOC12에서 픽셀 수준+비표시 데이터와 픽셀 수준+이미지 수준 데이터로 SOTA 성능을 달성한다.
- 강한 증강과 하이퍼 컬럼 특징이 성능을 향상시키고 이 접근 방식은 ResNet-50, ResNet-101, Xception-65에서 백본에 강건하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.