Skip to main content
QUICK REVIEW

[논문 리뷰] SeMask: Semantically Masked Transformers for Semantic Segmentation

Jitesh Jain, Anu Singh|arXiv (Cornell University)|2021. 12. 23.
Advanced Neural Network Applications인용 수 31
한 줄 요약

SeMask는 사전 학습된 계층적 비전 트랜스포머에 시맨틱 컨텍스트를 주입하는 시맨틱 프라이어 SeMask 블록을 도입하여 시맨틱 분할 성능을 향상시키고 ADE20K에서 새로운 최첨단 성능(58.25% mIoU)을 달성하며 Cityscapes에서 >3%의 이득을 얻습니다.

ABSTRACT

Finetuning a pretrained backbone in the encoder part of an image transformer network has been the traditional approach for the semantic segmentation task. However, such an approach leaves out the semantic context that an image provides during the encoding stage. This paper argues that incorporating semantic information of the image into pretrained hierarchical transformer-based backbones while finetuning improves the performance considerably. To achieve this, we propose SeMask, a simple and effective framework that incorporates semantic information into the encoder with the help of a semantic attention operation. In addition, we use a lightweight semantic decoder during training to provide supervision to the intermediate semantic prior maps at every stage. Our experiments demonstrate that incorporating semantic priors enhances the performance of the established hierarchical encoders with a slight increase in the number of FLOPs. We provide empirical proof by integrating SeMask into Swin Transformer and Mix Transformer backbones as our encoder paired with different decoders. Our framework achieves a new state-of-the-art of 58.25% mIoU on the ADE20K dataset and improvements of over 3% in the mIoU metric on the Cityscapes dataset. The code and checkpoints are publicly available at https://github.com/Picsart-AI-Research/SeMask-Segmentation .

연구 동기 및 목표

  • 인코딩 중 이미지 시맨틱 컨텍스트를 도입하여 시맨틱 분할을 위해 사전 학습된 트랜스포머 인코더를 미세조정하도록 동기를 부여한다.

제안 방법

  • 계층형 백본(Swin, Mix Transformer)에서 각 Transformer Layer 뒤에 시맨틱 레이어를 삽입하여 시맨틱 프라이어와 시맨틱하게 마스킹된 특징들을 생성한다.
  • 가벼운 시맨틱 디코더를 사용하여 단계별 시맨틱 프라이어를 모으고 픽셀 단위 교차 엔트로피로 감독한다.
  • 시맨틱하게 마스킹된 인코더 특징을 Semantic-FPN 디코더와 결합하여 최종 픽셀 단위 예측을 수행한다.
  • 주 디코더의 주요 픽셀 단위 교차 엔트로피 손실과 시맨틱 프라이어 맵에 대한 보조 손실의 이중 손실로 학습한다.
  • SeMask 블록 내에서 학습 가능한 스칼라 람다를 사용하여 특징 업데이트를 안정화한다.

실험 결과

연구 질문

  • RQ1대규모 아키텍처 변경 없이 시맨틱 프라이어를 사전 학습된 트랜스포머 인코더에 주입하면 시맨틱 분할 성능이 향상될 수 있는가?
  • RQ2SeMask가 서로 다른 계층형 백본(Swin, Mix Transformer) 및 디코더와 어떻게 상호 작용하여 정확도에 영향을 미치는가?
  • RQ3여러 인코더 스테이지에서의 시맨틱 감독이 세그먼트 품질에 어떤 영향을 미치는가?

주요 결과

  • SeMask-L Swin 백본과 Mask2Former MSFaPN 디코더(640×640 학습)로 ADE20K에서 최첨단 58.25% mIoU를 달성.
  • Swin 및 Mix Transformer 백본 전반에서 강력한 베이스라인 대비 Cityscapes에서 3% 포인트 이상 mIoU 상승.
  • 고급 디코더를 사용할 때 SeMask를 적용하면 ADE20K에서 단일 스케일 57.00%와 다중 스케일 58.25%의 이득이 나타난다.
  • Swin-T, Swin-S, Swin-B, Swin-L 변형 및 Mix Transformer 백본에서도 SeMask가 일관되게 성능을 향상시키는 것을 보여준다.
  • SeMask 접근법은 백본에 독립적(backbone-agnostic)이고 여러 인코더 스테이지에서 경량 시맨틱 감독의 이점을 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.