[논문 리뷰] SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation
SegNeXt는 CNN 기반 인코더 내에서 합성곱 주의 메커니즘(MSCA)을 도입하여 시맨틱 세분화에서 변환기 기반 방법보다 계산이 낮으면서도 주요 벤치마크에서 최첨단 성능을 달성합니다.
We present SegNeXt, a simple convolutional network architecture for semantic segmentation. Recent transformer-based models have dominated the field of semantic segmentation due to the efficiency of self-attention in encoding spatial information. In this paper, we show that convolutional attention is a more efficient and effective way to encode contextual information than the self-attention mechanism in transformers. By re-examining the characteristics owned by successful segmentation models, we discover several key components leading to the performance improvement of segmentation models. This motivates us to design a novel convolutional attention network that uses cheap convolutional operations. Without bells and whistles, our SegNeXt significantly improves the performance of previous state-of-the-art methods on popular benchmarks, including ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, and iSAID. Notably, SegNeXt outperforms EfficientNet-L2 w/ NAS-FPN and achieves 90.6% mIoU on the Pascal VOC 2012 test leaderboard using only 1/10 parameters of it. On average, SegNeXt achieves about 2.0% mIoU improvements compared to the state-of-the-art methods on the ADE20K datasets with the same or fewer computations. Code is available at https://github.com/uyzhang/JSeg (Jittor) and https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).
연구 동기 및 목표
- 성공적인 시맨틱 세분화 모델이 공유하는 핵심 특성을 파악한다.
- 계산 비용이 저렴하면서도 맥락 모델링에 효과적인 합성곱 주의 메커니즘을 제안한다.
- 다중 스케일 합성곱 특징을 활용한 공간 주의 인코더-디코더 아키텍처를 설계한다.
- 합성곱 주의가 표준 벤치마크에서 트랜스포머 기반 방법보다 성능을 상회함을 입증한다.
- 다양한 데이터셋에 걸쳐 우수한 성능-계산 효율의 트레이드를 보여준다.
제안 방법
- MSCAN을 엔코더로 도입하고 다중 스케일 합성곱 주의(MSCA) 모듈을 적용한다.
- MSCA는 깊이별 합성곱과 다분기 대형 커널 피처를 통해 로컬 맥락을 집계한 뒤 1x1 컨볼루션으로 채널의 가중치를 재조정해 주의를 생성한다.
- 입력 피처 F에 주의(attention)로 Att ⊗ F를 요소별 곱으로 적용한다.
- 디코더에서 전역 맥락을 포착하기 위해 다중 수준 피처를 집계하는 가벼운 Hamburger 모듈을 채택한다.
- 마지막 세 스테이지의 다중 스케일 피처를 이용하는 디코더를 갖춘 네 개의 MSCAN 스테이지가 있는 인코더-디코더 설계를 사용한다.
- 전처리로 ImageNet에서 사전 학습하고 ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, iSAID에서 분할 평가를 수행한다.
실험 결과
연구 질문
- RQ1다양한 스케일 수용영역을 갖춘 carefully designed 합성곱 주의 메커니즘이 시맨틱 세분화에서 트랜스포머 기반 자기 주의(self-attention)와 양립하거나 이를 상회하는가?
- RQ2MSCA를 가진 CNN 기반 엔코더가 고해상도 세분화 작업에서 우수한 정확도- FLOPs 트레이드를 달성할 수 있는가?
- RQ3제안된 SegNeXt 디코더(Hamburger 기반의 전역 맥락)가 다른 디코더와 비교해 세분화 성능에 어떤 영향을 주는가?
- RQ4다중 스케일 합성곱과 채널 단위 주의가 다양한 데이터셋의 세분화 벤치마크에 어떤 영향을 미치는가?
주요 결과
- SegNeXt-S는 약 1,390만 개의 매개변수로 강력한 성능을 보이며 ADE20K 및 Cityscapes에서 일부 트랜스포머 기반 경쟁자보다 FLOPs가 크게 낮다.
- SegNeXt-B 및 SegNeXt-L은 여러 최첨단 방법에 비해 상당한 mIoU 이득을 보여주면서 계산량은 더 낮거나 비슷하게 유지된다(예: SegNeXt-S가 SegFormer-B2보다 더 낮은 계산으로 성능을 초과).
- MSCA의 다분기 대형 커널 합성곱과 주의 가중치 메커니즘은 단일 대형 커널이나 주의가 없는 설계보다 더 나은 세분화 성능을 낸다.
- Hamburger 디코더는 우호적 정확도-계산 균형을 제공하고 실험에서 여러 주의 기반 디코더를 능가한다.
- Pascal VOC에서 SegNeXt-L은 특정 사전 학습 및 설정에서 90.6% mIoU에 도달하고, Cityscapes의 실시간 평가에서 SegNeXt-T는 특별한 가속 없이도 25 FPS를 달성한다.
- ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, iSAID 전반에 걸쳐 SegNeXt가 최근의 트랜스포머 기반 및 CNN 기반 방법들보다 일관되게 향상된 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.