Skip to main content
QUICK REVIEW

[논문 리뷰] Token Contrast for Weakly-Supervised Semantic Segmentation

Lixiang Ru, Heliang Zheng|arXiv (Cornell University)|2023. 03. 02.
Advanced Neural Network Applications인용 수 9
한 줄 요약

요약: 이 논문은 ViT를 활용한 약지도반 지도학습의 허점에 대처하기 위해 Vision Transformers의 WSSS를 위한 Token Contrast(ToCo)를 제안한다. (1) Patch Token Contrast(PTC)는 최종 패치 토큰을 중간 계층 시맨틱과 정렬하고, (2) Class Token Contrast(CTC)는 불확실한 영역과 전체 객체 간의 로컬-글로벌 표현 일관성을 강화하여 VOC와 COCO에서 강력한 단일 단계 WSSS 결과를 얻는다.

ABSTRACT

Weakly-Supervised Semantic Segmentation (WSSS) using image-level labels typically utilizes Class Activation Map (CAM) to generate the pseudo labels. Limited by the local structure perception of CNN, CAM usually cannot identify the integral object regions. Though the recent Vision Transformer (ViT) can remedy this flaw, we observe it also brings the over-smoothing issue, \ie, the final patch tokens incline to be uniform. In this work, we propose Token Contrast (ToCo) to address this issue and further explore the virtue of ViT for WSSS. Firstly, motivated by the observation that intermediate layers in ViT can still retain semantic diversity, we designed a Patch Token Contrast module (PTC). PTC supervises the final patch tokens with the pseudo token relations derived from intermediate layers, allowing them to align the semantic regions and thus yield more accurate CAM. Secondly, to further differentiate the low-confidence regions in CAM, we devised a Class Token Contrast module (CTC) inspired by the fact that class tokens in ViT can capture high-level semantics. CTC facilitates the representation consistency between uncertain local regions and global objects by contrasting their class tokens. Experiments on the PASCAL VOC and MS COCO datasets show the proposed ToCo can remarkably surpass other single-stage competitors and achieve comparable performance with state-of-the-art multi-stage methods. Code is available at https://github.com/rulixiang/ToCo.

연구 동기 및 목표

  • CAM의 WSSS 한계를 ViT를 활용해 글로벌 객체 영역을 포착하려는 목적.
  • PTC를 통해 최종 패치 토큰을 중간 계층 시그널로 감독해 ViT의 과도한 스무딩을 완화.
  • 잠재 CAM 영역을 클래스 토큰 기반 로컬-글로벌 대조로 구분.
  • 단일 단계 WSSS 프레임워크를 개발해 다단계 접근법과의 경쟁력을 확보.

제안 방법

  • Patch Token Contrast(PTC)를 도입해 중간 ViT 계층에서 도출된 가짜 토큰 관계를 이용해 최종 패치 토큰을 감독.
  • 이 auxiliary classifier를 통해 중간 계층으로부터 보조 CAM을 도출하고 이를 PTC의 토큰 라벨 신뢰성으로 활용.
  • Class Token Contrast(CTC)를 정의해 전역 클래스 토큰을 불확실 영역의 로컬 크롭과 정렬하고, InfoNCE 손실을 사용해 배경 크롭과의 대조를 수행.
  • L_cls, L_cls^m, L_ptc, L_ctc를 L_seg와 함께 최종 ToCo 목표로 엔드-투-엔드 학습.
  • CTC의 글로벌 프로젝션 헤드를 EMA 기반으로 업데이트해 로컬-글로벌 토큰 정렬의 안정성을 높임.
  • PAR 보정 및 간단한 디코더를 이용해 ToCo를 단일 단계 WSSS 프레임워크에 통합.
Figure 1 : The generated CAM and the pairwise cosine similarity of patch tokens ( $sim.$ map). Our method can address the over-smoothing issue well and produce accurate CAM. Here we use ViT-Base.
Figure 1 : The generated CAM and the pairwise cosine similarity of patch tokens ( $sim.$ map). Our method can address the over-smoothing issue well and produce accurate CAM. Here we use ViT-Base.

실험 결과

연구 질문

  • RQ1중간 ViT 표현이 최종 패치 토큰의 과도한 스무딩에 반하는 시맨틱 다양성을 제공하는가?
  • RQ2중간 계층 CAM으로 최종 패치 토큰을 감독하면 CAM 품질 및 WSSS를 위한 의사 라벨이 향상되는가?
  • RQ3전역-로컬 뷰 간 클래스 토큰 수준 대조가 CAM에서 불확실 영역의 활성화를 개선하는가?
  • RQ4ToCo는 VOC와 COCO에서 최첨단 단일 단계 및 다단계 WSSS 방법과 비교해 어떤 성능을 보이는가?

주요 결과

  • ToCo는 ViT 기반 기준선보다 CAM 품질과 다운스트림 분할 성능을 크게 향상시킨다.
  • PTC는 패치 토큰의 과도한 스무딩을 줄여 최종 CAM을 VOC val에서 ablations 시 27.9%에서 62.5% mIoU로 개선했다.
  • CTC는 CAM 품질의 추가 4.7% mIoU 개선과 세미-감독적 로컬-글로벌 일관성을 도입한다.
  • VOC에서 ToCo는 ViT-B로 val에서 70.5% mIoU, 다양한 변형에서 68.1–70.5 범위를 보이며, pretrained 가중치에 따라 VOC test에서 72.3–72.2% mIoU 달성.
  • COCO val에서 ToCo는 42.3% mIoU를 달성하고 ViT-B† 백본을 사용하면 val 71.1% 및 test 72.2% mIoU(이미지 수준 감독) 달성.
  • ToCo 단일 단계 결과는 다수의 단일 단계 경쟁자들을 능가하고 이미지 수준 라벨만으로도 다수의 다단계 방법에 근접하거나 이를 상회한다.
Figure 2 : The average pairwise cosine similarity of patch tokens in each Transformer block. The cosine similarity is computed on the VOC train set. Here we use the ViT-Base (ViT-B) [ 12 ] architecture which includes 12 Transformer blocks.
Figure 2 : The average pairwise cosine similarity of patch tokens in each Transformer block. The cosine similarity is computed on the VOC train set. Here we use the ViT-Base (ViT-B) [ 12 ] architecture which includes 12 Transformer blocks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.