Skip to main content
QUICK REVIEW

[논문 리뷰] Universal Weakly Supervised Segmentation by Pixel-to-Segment Contrastive Learning

Tsung-Wei Ke, Jyh-Jing Hwang|arXiv (Cornell University)|2021. 05. 03.
Domain Adaptation and Few-Shot Learning참고 문헌 53인용 수 36
한 줄 요약

논문은 약 supervision 세그먼테이션을 반지도 학습으로 형식화하고, 부분 주석으로부터 보편적 특징을 학습하기 위해 네 가지 픽셀-세그먼트 대조 관계를 도입하여 Pascal VOC 및 DensePose에서 강력한 성과를 달성합니다.

ABSTRACT

Weakly supervised segmentation requires assigning a label to every pixel based on training instances with partial annotations such as image-level tags, object bounding boxes, labeled points and scribbles. This task is challenging, as coarse annotations (tags, boxes) lack precise pixel localization whereas sparse annotations (points, scribbles) lack broad region coverage. Existing methods tackle these two types of weak supervision differently: Class activation maps are used to localize coarse labels and iteratively refine the segmentation model, whereas conditional random fields are used to propagate sparse labels to the entire image. We formulate weakly supervised segmentation as a semi-supervised metric learning problem, where pixels of the same (different) semantics need to be mapped to the same (distinctive) features. We propose 4 types of contrastive relationships between pixels and segments in the feature space, capturing low-level image similarity, semantic annotation, co-occurrence, and feature affinity They act as priors; the pixel-wise feature can be learned from training images with any partial annotations in a data-driven fashion. In particular, unlabeled pixels in training images participate not only in data-driven grouping within each image, but also in discriminative feature learning within and across images. We deliver a universal weakly supervised segmenter with significant gains on Pascal VOC and DensePose. Our code is publicly available at https://github.com/twke18/SPML.

연구 동기 및 목표

  • 부분적으로 라벨링된 학습 이미지(태그, 박스, 점, 낙서)에서 의미적 세그먼터를 학습하는 동기를 부여합니다.
  • 라벨이 없는 데이터를 효과적으로 활용하는 통합 대조 학습 프레임워크를 통해 픽셀 수준의 의미를 전파하고 다듬습니다.
  • 판단적이고 비모듈식 SegSort 기반 접근법을 약 지도학습으로 확장합니다.
  • 다양한 주석 형태에서 SOTA에 대해 Pascal VOC 및 DensePose에서 일관된 이득을 보여줍니다.

제안 방법

  • 약 지도 세그멘테이션을 반지도 픽셀-단위 metric 학습으로 프레이밍합니다.
  • 네 가지 픽셀-세그먼트 대조 관계를 제안합니다: 저수준 이미지 유사성, 의미 주석, 의미 공존, 그리고 피처 어피니티.
  • 이 관계들을 사용하여 픽셀당 Positive/Negative 세그먼트 세트를 정의하고 라벨링된 픽셀을 넘어서 감독을 확장합니다.
  • 가중치 λI, λC, λO, λA와 함께 네 항을 집계하는 통합 픽셀-대 픽셀 대조 손실 L(i)를 최적화합니다.
  • 학습 중에 라벨이 없는 픽셀과 세그먼트를 활용하여 판별적이고 교차 이미지 피처 구조를 학습합니다.

실험 결과

연구 질문

  • RQ1단일 픽셀-세그먼트 대조 프레임워크가 시맨틱 세그멘테이션에서 모든 형태의 약 지도(태그, 박스, 점, 낙서)를 처리할 수 있는가?
  • RQ2다양한 관계 기반 priors를 통해 라벨이 없는 픽셀과 세그먼트가 학습에 의미 있게 기여하는가?
  • RQ3제안된 SPML 접근법이 표준 데이터셋에서 서로 다른 약 지도 설정 하에 SOTA와 비교하여 어떤 성능을 보이는가?
  • RQ4학습된 피처 공간이 이미지 내외에서 정확한 세그멘테이션을 위해 실제로 구분력이 있는가?

주요 결과

  • SPML은 이미지 태그에 대해 Pascal VOC에서 SOTA 또는 강력한 이득을 달성합니다(주목도 없는 경우 +4.4%, 주목도 없이 +5.1%) 및 바운딩 박스에서 +3.2%를 달성합니다.
  • Pascal VOC에서 낙서 약 지도에 대해 SPML은 검증에서 74.2% mIoU, 테스트에서 76.1%를 달성하며 각각 전체 감독의 97.5% 및 98.4%에 도달합니다.
  • 포인트 주석이 있는 DensePose에서 SPML은 77.1% WvF 및 44.2 mIoU를 달성하며 이전 기준선 대비 mIoU를 12.9% 포인트 높여 77.1% WvF를 달성합니다.
  • SPML은 주석 희소성에 대해 강건함을 나타내며 감독 비율이 더 희소해짐에 따라 전체 감독 성능의 큰 비율을 유지합니다(예: 낙서에서 점으로 바뀔 때).
  • 정성적 결과는 영역 경계와의 더 나은 정렬 및 완전 지도 방법과의 시각적 유사성이 향상되었음을 보여주며, 더 많은 규제 관계가 추가될수록 개선이 커집니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.