Skip to main content
QUICK REVIEW

[논문 리뷰] Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention

Haotian Yan, Chuang Zhang|arXiv (Cornell University)|2022. 01. 05.
Advanced Neural Network Applications인용 수 48
한 줄 요약

Lawin Transformer는 대형 윈도우 어텐션과 LawinASPP 디코더를 도입하여 semantic segmentation ViTs에 다중 스케일 표현을 주입하고, Cityscapes, ADE20K, COCO-Stuff에서 개선된 효율성과 함께 최첨단 결과를 달성한다.

ABSTRACT

Multi-scale representations are crucial for semantic segmentation. The community has witnessed the flourish of semantic segmentation convolutional neural networks (CNN) exploiting multi-scale contextual information. Motivated by that the vision transformer (ViT) is powerful in image classification, some semantic segmentation ViTs are recently proposed, most of them attaining impressive results but at a cost of computational economy. In this paper, we succeed in introducing multi-scale representations into semantic segmentation ViT via window attention mechanism and further improves the performance and efficiency. To this end, we introduce large window attention which allows the local window to query a larger area of context window at only a little computation overhead. By regulating the ratio of the context area to the query area, we enable the $ extit{large window attention}$ to capture the contextual information at multiple scales. Moreover, the framework of spatial pyramid pooling is adopted to collaborate with $ extit{the large window attention}$, which presents a novel decoder named $ extbf{la}$rge $ extbf{win}$dow attention spatial pyramid pooling (LawinASPP) for semantic segmentation ViT. Our resulting ViT, Lawin Transformer, is composed of an efficient hierachical vision transformer (HVT) as encoder and a LawinASPP as decoder. The empirical results demonstrate that Lawin Transformer offers an improved efficiency compared to the existing method. Lawin Transformer further sets new state-of-the-art performance on Cityscapes (84.4% mIoU), ADE20K (56.2% mIoU) and COCO-Stuff datasets. The code will be released at https://github.com/yan-hao-tian/lawin

연구 동기 및 목표

  • 정확도와 효율성을 향상시키기 위해 다중 스케일 맥락 정보를 시맨틱 세그멘테이션 ViTs에 통합하려는 동기를 부여한다.
  • 제어된 계산 비용으로 컨텍스트 질의를 확장하기 위한 대형 윈도우 어텐션 메커니즘을 개발한다.
  • 경량 디코더와 다중 스케일 맥락 신호를 융합하기 위한 LawinASPP를 설계한다.
  • 표준 시맨틱 세그멘테이션 벤치마크에서 Lawin Transformer를 평가하고 최첨단 ViT 기반 및 CNN 기반 방법과 비교한다.

제안 방법

  • 쿼리 패치가 비율 R로 스케일된 컨텍스트 패치에 어텐션하는 대형 윈도우 어텐션을 도입하고, 복잡성을 유지하기 위한 풀링을 사용한다.
  • 풀링 후 의존성을 회복하기 위해 머리 수를 R^2으로 설정한 멀티헤드 어텐션을 사용한다.
  • MLP-Mixer에서 영감을 받아 각 헤드마다 위치 혼합 MLP를 적용하여 컨텍스트 패치 내 공간 표현을 강화한다.
  • 표준 디코더를 LawinASPP로 교체한다. LawinASPP는 대형 윈도우 어텐션을 R=(2,4,8)에서 결합하고 이미지 풀링 가지를 포함하는 공간 피라미드 풀링 변형이다.
  • MiT 또는 Swin 같은 계층적 비전 트랜스포머 인코더와 LawinASPP를 통합하고 다중 레벨 피처를 초기 저수준 피처와 융합하여 최종 예측을 수행한다.

실험 결과

연구 질문

  • RQ1대형 윈도우 어텐션이 시맨틱 세그멘테이션 ViTs에서 다중 스케일 맥락 정보를 효율적으로 캡처할 수 있는가?
  • RQ2LawinASPP가 기존 디코더보다 다중 스케일 표현 및 최종 세그멘테이션 성능을 개선하는가?
  • RQ3풀링 비율 R, 헤드 수, 위치-대 채널 혼합 중 어떤 것이 대형 윈도우 어텐션의 정확도와 효율성에 영향을 미치는가?
  • RQ4Lawin Transformer가 Cityscapes, ADE20K, COCO-Stuff에서 최첨단 ViT 기반 및 CNN 기반 방법과 어떻게 비교되는가?

주요 결과

  • Lawin Transformer는 SegFormer와 Swin-UperNet에 비해 변형 간에 더 나은 mIoU를 달성하고 FLOPs가 더 낮거나 비슷하다.
  • Lawin-B4 및 Lawin-B5 변형은 ADE20K와 Cityscapes에서 일부 기준선 대비 계산량을 줄이면서 mIoU의 이점을 보여준다.
  • LawinASPP는 ADE20K에서 mIoU 측면에서 ASPP, PPM, SEP-ASPP를 능가하면서 FLOPs를 경쟁력 있게 유지한다.
  • Position-mixing MLP는 대형 윈도우 어텐션에서 테스트된 혼합 전략 중 가장 큰 이점을 제공하고 채널-혼합 접근법보다 우수하다.
  • 이 프레임워크는 Cityscapes (Swin-L 인코더로 84.4% mIoU), ADE20K (MiT-B5로 53.0% mIoU; Swin-L로 84.4% mIoU), COCO-Stuff (MiT-B5로 47.5% mIoU)에서 최첨단 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.