[논문 리뷰] ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency
ViewCo는 텍스트-뷰 일관성과 교차 뷰 분할 일관성을 도입하여 이미지-텍스트 데이터에서 텍스트-감독 분할 마스크를 학습하고, VOC2012, PASCAL Context, COCO에서 제로샷 mIoU를 최상위 수준으로 달성합니다. 다중 뷰 자기 감독 및 교차 모달 대조 손실을 사용하여 여러 크롭을 텍스트와 정렬합니다.
Recently, great success has been made in learning visual representations from text supervision, facilitating the emergence of text-supervised semantic segmentation. However, existing works focus on pixel grouping and cross-modal semantic alignment, while ignoring the correspondence among multiple augmented views of the same image. To overcome such limitation, we propose multi- extbf{View} extbf{Co}nsistent learning (ViewCo) for text-supervised semantic segmentation. Specifically, we first propose text-to-views consistency modeling to learn correspondence for multiple views of the same input image. Additionally, we propose cross-view segmentation consistency modeling to address the ambiguity issue of text supervision by contrasting the segment features of Siamese visual encoders. The text-to-views consistency benefits the dense assignment of the visual features by encouraging different crops to align with the same text, while the cross-view segmentation consistency modeling provides additional self-supervision, overcoming the limitation of ambiguous text supervision for segmentation masks. Trained with large-scale image-text data, our model can directly segment objects of arbitrary categories in a zero-shot manner. Extensive experiments show that ViewCo outperforms state-of-the-art methods on average by up to 2.9\%, 1.6\%, and 2.4\% mIoU on PASCAL VOC2012, PASCAL Context, and COCO, respectively.
연구 동기 및 목표
- 텍스트-감독 시맨틱 분할을 위한 1대 1 이미지-텍스트 페어링을 넘어서는 교차 모달 시맨틱 정렬의 개선 동기를 제시한다.
- 자텍스트 설명 모호성을 완화하기 위해 자기 감독으로서 교차 뷰 분할 일관성을 도입한다.
- 다중 뷰 크롭을 활용하여 텍스트-뷰 정렬을 학습하고 밀집하고 높은 수준의 시맨틱을 지원한다.
- 대규모 이미지-텍스트 데이터셋에서 사전 학습하고 표준 벤치마크로의 이전을 통해 제로샷 분할 능력을 입증한다.
제안 방법
- 엄밀한 이미지-텍스트 대응을 완화하고 동일 텍스트와 여러 이미지 크롭을 맞추는 텍스트-뷰 일관성 모델링을 제안한다.
- 시암스 네트워크 기반 시각 인코더의 분할 피처를 대조시켜 자기 감독 신호를 제공하는 교차 뷰 분할 일관성을 도입한다.
- 교사-학생 EMA를 갖춘 GroupViT 기반 시각 백본으로 교차 뷰 분할 피처를 얻고 NCE 기반 손실을 적용한다.
- 다중 뷰 및 다중 프롬프트 이미지-텍스트 대조 손실을 적용하여 교차 모달 정렬을 강화하고 텍스트 모호성의 영향을 줄인다.
- 교차 뷰 분할 손실을 텍스트-뷰와 다중 프롬프트 손실과 결합하여 최종 학습 목표를 형성한다.
- CC12M 및 CC12M+YFCC에서 사전 학습한 후 분할 토큰 임베딩을 레이블 프롬프트와 매칭시켜 제로샷 분할을 수행한다.

실험 결과
연구 질문
- RQ1이미지-텍스트 매칭을 한 대일(1대 다) 텍스트-뷰 패러다임으로 완화하는 것이 분할에 대한 고수준 교차 모달 시맨틱 정렬을 개선할 수 있는가?
- RQ2교차 뷰 분할 일관성은 분할 마스크의 텍스트 감독 모호성을 극복하는 견고한 자기 감독 신호를 제공하는가?
- RQ3다중 뷰 텍스트-뷰 및 교차 뷰 분할 손실이 표준 데이터셋에서 제로샷 분할을 어떻게 상호 작용하며 개선하는가?
- RQ4ViewCo를 사용할 때 CC12M vs CC12M+YFCC가 제로샷 시맨틱 분할에 얼마나 기여하는가?
주요 결과
| Pre-training | Model | Dataset | Supervision | Zero-Shot | PASCAL VOC (mIoU) | PASCAL Context (mIoU) | COCO (mIoU) |
|---|---|---|---|---|---|---|---|
| CC12M | ViewCo | CC12M | text & self | ✓ | 45.7 | 20.8 | 20.6 |
| CC12M+YFCC | ViewCo | CC12M+YFCC | text & self | ✓ | 52.4 | 23.0 | 23.5 |
- ViewCo는 VOC2012, PASCAL Context 및 COCO 전반에서 평균 제로샷 mIoU를 최신 방법 대비 최대 2.9 포인트 개선한다.
- 텍스트-뷰 일관성(일대다)은 단일 뷰 텍스트-이미지 대조보다 높은 시맨틱 정렬을 보인다.
- 교차 뷰 분할 일관성은 추가적인 자기 감독 신호를 제공하여 뷰 간 분할 일관성을 향상시킨다.
- CC12M 사전 학습으로 ViewCo는 VOC에서 52.4 mIoU, COCO에서 23.0 mIoU를 달성하며 GroupViT를 유의미하게 상회한다.
- 제로샷 ImageNet Acc@1은 ViewCo를 사용할 때 향상되어 교차 모달 시맨틱 이해가 강화됨을 시사한다.
- ViewCo는 일부 벤치마크에서 완전 감독 기반의 성능에 근접한 수준의 제로샷 분할 능력을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.