QUICK REVIEW

[논문 리뷰] SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation

Huaishao Luo, Junwei Lucas Bao|arXiv (Cornell University)|2022. 11. 27.

Multimodal Machine Learning Applications인용 수 27

한 줄 요약

SegCLIP은 CLIP 기반의 오픈 벨류어리 시맨틱 세그멘테이션 모델을 도입하며, 학습 가능한 센터를 갖는 플러그인식 의미 그룹 모듈을 사용해 패치를 불규칙한 의미 영역으로 묶고, 대조 손실(constrastive loss) 외에도 재구성(reconstruction) 및 Superpixel KL 손실로 학습합니다. 마스크 제안 없이 VOC, Context, COCO에서 경쟁력 있는 mIoU를 달성합니다.

ABSTRACT

Recently, the contrastive language-image pre-training, e.g., CLIP, has demonstrated promising results on various downstream tasks. The pre-trained model can capture enriched visual concepts for images by learning from a large scale of text-image data. However, transferring the learned visual knowledge to open-vocabulary semantic segmentation is still under-explored. In this paper, we propose a CLIP-based model named SegCLIP for the topic of open-vocabulary segmentation in an annotation-free manner. The SegCLIP achieves segmentation based on ViT and the main idea is to gather patches with learnable centers to semantic regions through training on text-image pairs. The gathering operation can dynamically capture the semantic groups, which can be used to generate the final segmentation results. We further propose a reconstruction loss on masked patches and a superpixel-based KL loss with pseudo-labels to enhance the visual representation. Experimental results show that our model achieves comparable or superior segmentation accuracy on the PASCAL VOC 2012 (+0.3% mIoU), PASCAL Context (+2.3% mIoU), and COCO (+2.2% mIoU) compared with baselines. We release the code at https://github.com/ArrowLuo/SegCLIP.

연구 동기 및 목표

픽셀 수준의 라벨이나 고정된 어휘 없이 오픈 벨류어리 시맨틱 세그멘테이션을 가능하게 하는 동기를 제시한다.
패치를 의미 영역으로 집계하는 시맨틱 그룹 모듈을 삽입하여 CLIP를 활용한다.
재구성 및 슈퍼픽셀 기반 KL 손실로 시각 표현을 향상시킨다.
표준 데이터셋에서 CLIP 프리트레이닝에서 세그멘테이션으로의 전이 학습을 시연한다.

제안 방법

ViT 기반 CLIP 백본에 L개의 학습 가능한 센터를 생성하는 플러그드 시맨틱 그룹 모듈을 사용하여 교차 주의(cross-attention)와 Gumbel-Softmax에서의 매핑 행렬 M을 통해 패치를 의미 영역으로 집계한다.
센터와 이미지 패치 간의 교차 주의를 통해 컨텍스트 센터를 생성하고; 패치를 센터에 할당하기 위해 M를 계산하며; 이후 트랜스포머 계층을 위한 영역 표현을 도출한다.
다양한 손실의 조합으로 학습한다: 대조 손실(CLIP-스타일), 불규칙 영역 MAE 유사 프로세스를 통한 마스킹된 패치의 재구성 손실, 그리고 패치-영역 매핑의 일관성을 촉진하기 위한 슈퍼픽셀 기반 KL 손실.
추론은 후보 라벨로 채워진 텍스트 프롬프트를 사용하고 영역 표현과 라벨 임베딩 간의 유사도를 계산해 보간(interpolation)을 통해 픽셀 수준의 세그멘테이션을 산출한다.

실험 결과

연구 질문

RQ1SegCLIP이 세그멘테이션 특정 감독 없이 CLIP 가중치를 재활용하여 오픈 벨류어리 시맨틱 세그멘테이션을 달성할 수 있는가?
RQ2학습 가능한 패치 중심화(시맨틱 그룹) 접근이 오픈 벨류어리 라벨링에 적합한 일관된 불규칙 형태의 세그먼트를 생성하는가?
RQ3재구성 및 슈퍼픽셀 기반 KL 손실이 대조 학습만으로 충분하지 않은 세그멘테이션 품질을 향상시키는가?

주요 결과

아키텍처	초기화	학습 데이터	보조	제로샷	VOC	Context	COCO
SegCLIP	6	-	-	-	35.28	19.28	16.73
SegCLIP	8	CC+COCO	Text	✓	43.75	22.71	21.40
SegCLIP	10	CC+COCO	Text	✓	47.95	23.43	24.86
SegCLIP	11	CC+COCO	Text	✓	22.07	10.76	12.08

SegCLIP은 VOC, Context, COCO에서 mIoU를 개선하며, CC+COCO에서 초기화되고 제안된 손실로 학습될 때 특정 설정에서 52.60/24.71/26.45를 달성합니다(표 참조).
재구성 손실은 KL 손실과 결합될 때 mIoU를 현저히 개선합니다(예: VOC에서 조건에 따라 +1.19에서 +4.11).
슈퍼픽셀 기반 KL 손실은 재구성 손실이 함께 사용될 때 특히 데이터셋 전반에서 mIoU를 지속적으로 향상시킵니다.
교차 주의 및 플러그된 레이어 수가 성능에 영향을 미치며, 대략 10개의 플러그드 레이어, 8개의 센터, 2개의 교차 주의 레이어 구성이 강한 성능을 보입니다.
사전 학습된 CLIP로 초기화하는 것이 학습-제로 샷(open-vocabulary) 세그멘테이션의 성능을 크게 높입니다(예: VOC, Context, COCO의 이점).
SegCLIP은 후보 라벨로 평가할 때 추가 세그멘테이션 특화 학습 없이 제로샷/오픈-벨류어리 세그멘테이션을 수행할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.