[논문 리뷰] Weakly Supervised Semantic Segmentation with Convolutional Networks.
이 논문은 이미지 수준의 클래스 레이블만을 사용하는 CNN을 활용한 약한 지도 학습 세분화 방법을 제안한다. 모델은 MIL 기반의 손실 함수를 통해 구분 가능한 픽셀에 집중하도록 훈련되며, 최소한의 후처리를 통해 Pascal VOC에서 최신 기술 수준의 성능을 달성한다. ImageNet에서 미세조정 없이도 일반화된다.
We are interested in inferring object segmentation by leveraging only object class information, and by consider-ing only minimal priors on the object segmentation task. This problem could be viewed as a kind of weakly super-vised segmentation task, and naturally fits the Multiple In-stance Learning (MIL) framework: every training image is known to have (or not) at least one pixel corresponding to the image class label, and the segmentation task can be rewritten as inferring the pixels belonging to the class of the object (given one image, and its object class). We pro-pose a Convolutional Neural Network-based model, which is constrained during training to put more weight on pix-els which are important for classifying the image. We show that at test time, the model has learned to discriminate the right pixels well enough, such that it performs very well on an existing segmentation benchmark, by adding only few smoothing priors. Our system is trained using a subset of the Imagenet dataset and the segmentation experiments are performed on the challenging Pascal VOC dataset (with no fine-tuning of the model on Pascal VOC). Our model beats the state of the art results in weakly supervised object seg-mentation task by a large margin. We also compare the per-formance of our model with state of the art fully-supervised segmentation approaches. 1.
연구 동기 및 목표
- 이미지 수준의 클래스 애너테이션(경계 상자나 픽셀 수준의 마스크 없이)을 사용해 약한 지도 학습 세분화 문제를 해결하기 위해.
- 훈련 과정에서 강력한 사전 지식이나 인간이 애너테이션한 세분화 마스크에 의존도를 줄이기 위해.
- 클래스 수준의 지도 학습만으로도 관련 객체 영역을 정확히 국소화할 수 있는 딥 러닝 모델을 개발하기 위해.
- 타겟 데이터셋에 대해 미세조정 없이 도전적인 Pascal VOC 벤치마크에서 성능을 평가하기 위해.
제안 방법
- 각 이미지를 백으로, 픽셀을 인스턴스로 간주하는 다중 인스턴스 학습(MIL) 프레임워크 내에서 세분화 작업을 수립한다.
- 이미지 분류가 올바르게 이루어지는데 기여도가 높은 픽셀에 더 높은 주의 가중치를 할당하도록 CNN을 훈련한다.
- 최종 합성곱층의 활성화 패턴에 초점을 맞춰 모델이 구분 가능한 영역에 집중하도록 하는 손실 함수를 사용한다.
- 전역 평균 풀링과 기울기 기반 클래스 활성화 맵핑(Grad-CAM 유사 기법)을 적용해 굵은 세분화 맵을 생성한다.
- 예측을 정제하기 위해 CRF나 임계값 설정을 통한 최소한의 후처리 스무딩을 적용한다.
- ImageNet에서 이미지 수준의 레이블만을 사용해 훈련한 후, Pascal VOC에서 어떤 미세조정 없이 평가한다.
실험 결과
연구 질문
- RQ1이미지 수준의 레이블만으로 훈련된 CNN이 고품질 세분화를 위해 충분히 객체 영역을 국소화할 수 있는가?
- RQ2픽셀 수준의 감독 없이도, MIL 기반의 훈련 프레임워크가 공간적으로 일관된 객체 제안을 효과적으로 학습할 수 있는가?
- RQ3ImageNet에서 미리 훈련된 모델이 도메인 특화된 미세조정 없이도 Pascal VOC에서 세분화 작업으로 효과적으로 일반화될 수 있는가?
- RQ4이 약한 지도 학습 방법의 성능가 완전 지도 학습 최신 기술 수준의 접근 방식과 비교해 어떻게 되는가?
주요 결과
- 제안된 방법은 Pascal VOC 데이터셋에서 약한 지도 학습 세분화 분야에서 최신 기술 수준의 성능를 달성한다.
- Pascal VOC 데이터셋에 대해 어떤 미세조정 없이도 기존의 약한 지도 학습 방법보다 뚜렷이 뛰어난 성능를 보인다.
- ImageNet에서의 사전 훈련된 모델이 Pascal VOC로 효과적으로 일반화되며, 강력한 제로샷 전이 학습 능력을 보여준다.
- 최소한의 스무딩 사전 지식(예: CRF 또는 임계값 설정)을 사용하는 것으로도 고품질의 세분화 맵을 도출하는 데에 충분하다.
- 벤치마크에서 높은 IoU 점수로 확인되듯이, 모델은 높은 공간 정밀도로 객체 영역을 국소화한다.
- 훈련 시에 픽셀 수준의 애너테이션을 사용하지 않았음에도 불구하고, 완전 지도 학습 최신 기술 수준의 모델들과 경쟁 가능한 성능를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.