[논문 리뷰] SCSA: Exploring the Synergistic Effects Between Spatial and Channel Attention
SCSA는 Shareable Multi-Semantic Spatial Attention(SMSA)와 Progressive Channel-wise Self-Attention(PCSA)을 결합한 plug-and-play Spatial and Channel Synergistic Attention 모듈을 도입하여 다중 의미 공간 사전 정보를 활용해 채널 학습을 안내하고 분류, 탐지 및 분할 전반의 성능을 향상시킵니다.
Channel and spatial attentions have respectively brought significant improvements in extracting feature dependencies and spatial structure relations for various downstream vision tasks. While their combination is more beneficial for leveraging their individual strengths, the synergy between channel and spatial attentions has not been fully explored, lacking in fully harness the synergistic potential of multi-semantic information for feature guidance and mitigation of semantic disparities. Our study attempts to reveal the synergistic relationship between spatial and channel attention at multiple semantic levels, proposing a novel Spatial and Channel Synergistic Attention module (SCSA). Our SCSA consists of two parts: the Shareable Multi-Semantic Spatial Attention (SMSA) and the Progressive Channel-wise Self-Attention (PCSA). SMSA integrates multi-semantic information and utilizes a progressive compression strategy to inject discriminative spatial priors into PCSA's channel self-attention, effectively guiding channel recalibration. Additionally, the robust feature interactions based on the self-attention mechanism in PCSA further mitigate the disparities in multi-semantic information among different sub-features within SMSA. We conduct extensive experiments on seven benchmark datasets, including classification on ImageNet-1K, object detection on MSCOCO 2017, segmentation on ADE20K, and four other complex scene detection datasets. Our results demonstrate that our proposed SCSA not only surpasses the current state-of-the-art attention but also exhibits enhanced generalization capabilities across various task scenarios. The code and models are available at: https://github.com/HZAI-ZJNU/SCSA.
연구 동기 및 목표
- 공간 정보가 채널 주의 학습을 어떻게 가이드하고 다중 의미 특징 표현 간의 의미 차이를 완화할 수 있는지 조사한다.
- 매개변수와 계산을 줄이기 위해 공간 및 채널 계산을 분해하는 경량의 plug-and-play 주의 모듈을 개발한다.
- 제안된 SCSA의 일반화 가능성과 효과를 분류, 탐지, 분할 벤치마크 전반에서 입증한다.
제안 방법
- 다중 스케일의 깊이 공유 1D 합성곱과 그룹 정규화를 사용하여 다중 의미 공간 부분 특징으로 입력 특징을 분해하고 의미 구분을 보존한다.
- GN 기반 정규화와 시그모이드 활성화를 사용하여 부분 특징들 간에 다중 의미 공간 정보를 집계하여 공간 사전을 생성하기 위해 SMSA를 도입한다.
- SMSA 사전 정보에 의해 채널 간 관계를 계산하는 점진적 압축과 채널 차원에서 작동하는 PCSA를 제안한다.
- SCSA(X) = PCSA(SMSA(X))로 시퀀셜 구성을 통해 SMSA와 PCSA를 통합한다.
- ImageNet-1K에서 분류, MS COCO 2017에서 객체 탐지 및 인스턴스 분할, ADE20K에서 의미 분할에 대해 SCSA를 평가하고 최첨단 주의 모듈과 비교한다.
실험 결과
연구 질문
- RQ1다중 의미 정보에 의해 가이드된 공간 주의가 채널 주의 학습을 개선하고 부분 특징들 간의 의미 차이를 완화하는가?
- RQ2경량의 점진적으로 압축되는 채널 자기 주의(PCSA)가 공간 사전을 효과적으로 활용해 특징 재조정을 향상시키는가?
- RQ3SCSA는 기존 주의 메커니즘과 비교해 다양한 비전 작업(분류, 탐지, 분할) 및 데이터셋에서 어떻게 성능을 발휘하는가?
주요 결과
- SCSA는 ImageNet-1K에서 ResNet-50/101 및 MobileNetV2-1.0의 Top-1 정확도를 지속적으로 향상시키고 다른 주의 모듈보다 우수한 성능을 보인다.
- SCSA는 ADE20K 분할에서 더 높은 mIoU를, MS COCO 객체 탐지/인스턴스 분할에서 더 높은 AP를 달성하며 여러 설정에서 경쟁 방법보다 우수하다.
- 절삭 연구에서 SMSA가 정확도를 크게 향상시키고 PCSA의 점진적 압축은 공간 사전을 보존하면서 비용을 낮추며 시퀀스 구성(SMSA 앞에 PCSA)이 이점을 제공한다는 것을 보여준다.
- 부분 특징들 간의 GN 기반 정규화는 의미 간 간섭을 줄이고 공간 사전의 활용을 BN보다 개선한다.
- SCSA는 여러 백본 모델과 작업에서 성능이 향상되며 정확도/효율성의 우호적 트레이드오프를 갖고 강력한 일반화를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.