Skip to main content
QUICK REVIEW

[논문 리뷰] SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation

Huaishao Luo, Junwei Lucas Bao|arXiv (Cornell University)|2022. 11. 27.
Multimodal Machine Learning Applications인용 수 27
한 줄 요약

SegCLIP은 CLIP 기반의 오픈 벨류어리 시맨틱 세그멘테이션 모델을 도입하며, 학습 가능한 센터를 갖는 플러그인식 의미 그룹 모듈을 사용해 패치를 불규칙한 의미 영역으로 묶고, 대조 손실(constrastive loss) 외에도 재구성(reconstruction) 및 Superpixel KL 손실로 학습합니다. 마스크 제안 없이 VOC, Context, COCO에서 경쟁력 있는 mIoU를 달성합니다.

ABSTRACT

Recently, the contrastive language-image pre-training, e.g., CLIP, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned visual knowledge to open-vocabulary semantic segmentation is still under-explored. In this paper, we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary segmentation in an annotation-free manner. The SegCLIP achieves segmentation based on ViT and the main idea is to gather patches with learnable centers to semantic regions through training on text-image pairs. The gathering operation can dynamically capture the semantic groups, which can be used to generate the final segmentation results. We further propose a reconstruction loss on masked patches and a superpixel-based KL loss with pseudo-labels to enhance the visual representation. Experimental results show that our model achieves comparable or superior segmentation accuracy on the PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), and COCO (+2.2% mIoU) compared with baselines. We release the code at https://github.com/ArrowLuo/SegCLIP.

연구 동기 및 목표

  • 픽셀 수준의 라벨이나 고정된 어휘 없이 오픈 벨류어리 시맨틱 세그멘테이션을 가능하게 하는 동기를 제시한다.
  • 패치를 의미 영역으로 집계하는 시맨틱 그룹 모듈을 삽입하여 CLIP를 활용한다.
  • 재구성 및 슈퍼픽셀 기반 KL 손실로 시각 표현을 향상시킨다.
  • 표준 데이터셋에서 CLIP 프리트레이닝에서 세그멘테이션으로의 전이 학습을 시연한다.

제안 방법

  • ViT 기반 CLIP 백본에 L개의 학습 가능한 센터를 생성하는 플러그드 시맨틱 그룹 모듈을 사용하여 교차 주의(cross-attention)와 Gumbel-Softmax에서의 매핑 행렬 M을 통해 패치를 의미 영역으로 집계한다.
  • 센터와 이미지 패치 간의 교차 주의를 통해 컨텍스트 센터를 생성하고; 패치를 센터에 할당하기 위해 M를 계산하며; 이후 트랜스포머 계층을 위한 영역 표현을 도출한다.
  • 다양한 손실의 조합으로 학습한다: 대조 손실(CLIP-스타일), 불규칙 영역 MAE 유사 프로세스를 통한 마스킹된 패치의 재구성 손실, 그리고 패치-영역 매핑의 일관성을 촉진하기 위한 슈퍼픽셀 기반 KL 손실.
  • 추론은 후보 라벨로 채워진 텍스트 프롬프트를 사용하고 영역 표현과 라벨 임베딩 간의 유사도를 계산해 보간(interpolation)을 통해 픽셀 수준의 세그멘테이션을 산출한다.

실험 결과

연구 질문

  • RQ1SegCLIP이 세그멘테이션 특정 감독 없이 CLIP 가중치를 재활용하여 오픈 벨류어리 시맨틱 세그멘테이션을 달성할 수 있는가?
  • RQ2학습 가능한 패치 중심화(시맨틱 그룹) 접근이 오픈 벨류어리 라벨링에 적합한 일관된 불규칙 형태의 세그먼트를 생성하는가?
  • RQ3재구성 및 슈퍼픽셀 기반 KL 손실이 대조 학습만으로 충분하지 않은 세그멘테이션 품질을 향상시키는가?

주요 결과

아키텍처초기화학습 데이터보조제로샷VOCContextCOCO
SegCLIP6---35.2819.2816.73
SegCLIP8CC+COCOText43.7522.7121.40
SegCLIP10CC+COCOText47.9523.4324.86
SegCLIP11CC+COCOText22.0710.7612.08
  • SegCLIP은 VOC, Context, COCO에서 mIoU를 개선하며, CC+COCO에서 초기화되고 제안된 손실로 학습될 때 특정 설정에서 52.60/24.71/26.45를 달성합니다(표 참조).
  • 재구성 손실은 KL 손실과 결합될 때 mIoU를 현저히 개선합니다(예: VOC에서 조건에 따라 +1.19에서 +4.11).
  • 슈퍼픽셀 기반 KL 손실은 재구성 손실이 함께 사용될 때 특히 데이터셋 전반에서 mIoU를 지속적으로 향상시킵니다.
  • 교차 주의 및 플러그된 레이어 수가 성능에 영향을 미치며, 대략 10개의 플러그드 레이어, 8개의 센터, 2개의 교차 주의 레이어 구성이 강한 성능을 보입니다.
  • 사전 학습된 CLIP로 초기화하는 것이 학습-제로 샷(open-vocabulary) 세그멘테이션의 성능을 크게 높입니다(예: VOC, Context, COCO의 이점).
  • SegCLIP은 후보 라벨로 평가할 때 추가 세그멘테이션 특화 학습 없이 제로샷/오픈-벨류어리 세그멘테이션을 수행할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.