QUICK REVIEW

[논문 리뷰] SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

Meng-Hao Guo, Cheng-Ze Lu|arXiv (Cornell University)|2022. 09. 18.

Advanced Neural Network Applications인용 수 483

한 줄 요약

SegNeXt는 CNN 기반 인코더 내에서 합성곱 주의 메커니즘(MSCA)을 도입하여 시맨틱 세분화에서 변환기 기반 방법보다 계산이 낮으면서도 주요 벤치마크에서 최첨단 성능을 달성합니다.

ABSTRACT

We present SegNeXt, a simple convolutional network architecture for semantic segmentation. Recent transformer-based models have dominated the field of semantic segmentation due to the efficiency of self-attention in encoding spatial information. In this paper, we show that convolutional attention is a more efficient and effective way to encode contextual information than the self-attention mechanism in transformers. By re-examining the characteristics owned by successful segmentation models, we discover several key components leading to the performance improvement of segmentation models. This motivates us to design a novel convolutional attention network that uses cheap convolutional operations. Without bells and whistles, our SegNeXt significantly improves the performance of previous state-of-the-art methods on popular benchmarks, including ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, and iSAID. Notably, SegNeXt outperforms EfficientNet-L2 w/ NAS-FPN and achieves 90.6% mIoU on the Pascal VOC 2012 test leaderboard using only 1/10 parameters of it. On average, SegNeXt achieves about 2.0% mIoU improvements compared to the state-of-the-art methods on the ADE20K datasets with the same or fewer computations. Code is available at https://github.com/uyzhang/JSeg (Jittor) and https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).

연구 동기 및 목표

성공적인 시맨틱 세분화 모델이 공유하는 핵심 특성을 파악한다.
계산 비용이 저렴하면서도 맥락 모델링에 효과적인 합성곱 주의 메커니즘을 제안한다.
다중 스케일 합성곱 특징을 활용한 공간 주의 인코더-디코더 아키텍처를 설계한다.
합성곱 주의가 표준 벤치마크에서 트랜스포머 기반 방법보다 성능을 상회함을 입증한다.
다양한 데이터셋에 걸쳐 우수한 성능-계산 효율의 트레이드를 보여준다.

제안 방법

MSCAN을 엔코더로 도입하고 다중 스케일 합성곱 주의(MSCA) 모듈을 적용한다.
MSCA는 깊이별 합성곱과 다분기 대형 커널 피처를 통해 로컬 맥락을 집계한 뒤 1x1 컨볼루션으로 채널의 가중치를 재조정해 주의를 생성한다.
입력 피처 F에 주의(attention)로 Att ⊗ F를 요소별 곱으로 적용한다.
디코더에서 전역 맥락을 포착하기 위해 다중 수준 피처를 집계하는 가벼운 Hamburger 모듈을 채택한다.
마지막 세 스테이지의 다중 스케일 피처를 이용하는 디코더를 갖춘 네 개의 MSCAN 스테이지가 있는 인코더-디코더 설계를 사용한다.
전처리로 ImageNet에서 사전 학습하고 ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, iSAID에서 분할 평가를 수행한다.

실험 결과

연구 질문

RQ1다양한 스케일 수용영역을 갖춘 carefully designed 합성곱 주의 메커니즘이 시맨틱 세분화에서 트랜스포머 기반 자기 주의(self-attention)와 양립하거나 이를 상회하는가?
RQ2MSCA를 가진 CNN 기반 엔코더가 고해상도 세분화 작업에서 우수한 정확도- FLOPs 트레이드를 달성할 수 있는가?
RQ3제안된 SegNeXt 디코더(Hamburger 기반의 전역 맥락)가 다른 디코더와 비교해 세분화 성능에 어떤 영향을 주는가?
RQ4다중 스케일 합성곱과 채널 단위 주의가 다양한 데이터셋의 세분화 벤치마크에 어떤 영향을 미치는가?

주요 결과

SegNeXt-S는 약 1,390만 개의 매개변수로 강력한 성능을 보이며 ADE20K 및 Cityscapes에서 일부 트랜스포머 기반 경쟁자보다 FLOPs가 크게 낮다.
SegNeXt-B 및 SegNeXt-L은 여러 최첨단 방법에 비해 상당한 mIoU 이득을 보여주면서 계산량은 더 낮거나 비슷하게 유지된다(예: SegNeXt-S가 SegFormer-B2보다 더 낮은 계산으로 성능을 초과).
MSCA의 다분기 대형 커널 합성곱과 주의 가중치 메커니즘은 단일 대형 커널이나 주의가 없는 설계보다 더 나은 세분화 성능을 낸다.
Hamburger 디코더는 우호적 정확도-계산 균형을 제공하고 실험에서 여러 주의 기반 디코더를 능가한다.
Pascal VOC에서 SegNeXt-L은 특정 사전 학습 및 설정에서 90.6% mIoU에 도달하고, Cityscapes의 실시간 평가에서 SegNeXt-T는 특별한 가속 없이도 25 FPS를 달성한다.
ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context, iSAID 전반에 걸쳐 SegNeXt가 최근의 트랜스포머 기반 및 CNN 기반 방법들보다 일관되게 향상된 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.