Skip to main content
QUICK REVIEW

[논문 리뷰] Coordinate Attention for Efficient Mobile Network Design

Qibin Hou, Daquan Zhou|arXiv (Cornell University)|2021. 03. 04.
Advanced Neural Network Applications참고 문헌 49인용 수 321
한 줄 요약

The paper introduces coordinate attention, a lightweight attention module for mobile networks that embeds positional information by factorizing 2D pooling into two 1D pools, improving ImageNet classification and downstream vision tasks with minimal overhead.

ABSTRACT

Recent studies on mobile network design have demonstrated the remarkable effectiveness of channel attention (e.g., the Squeeze-and-Excitation attention) for lifting model performance, but they generally neglect the positional information, which is important for generating spatially selective attention maps. In this paper, we propose a novel attention mechanism for mobile networks by embedding positional information into channel attention, which we call "coordinate attention". Unlike channel attention that transforms a feature tensor to a single feature vector via 2D global pooling, the coordinate attention factorizes channel attention into two 1D feature encoding processes that aggregate features along the two spatial directions, respectively. In this way, long-range dependencies can be captured along one spatial direction and meanwhile precise positional information can be preserved along the other spatial direction. The resulting feature maps are then encoded separately into a pair of direction-aware and position-sensitive attention maps that can be complementarily applied to the input feature map to augment the representations of the objects of interest. Our coordinate attention is simple and can be flexibly plugged into classic mobile networks, such as MobileNetV2, MobileNeXt, and EfficientNet with nearly no computational overhead. Extensive experiments demonstrate that our coordinate attention is not only beneficial to ImageNet classification but more interestingly, behaves better in down-stream tasks, such as object detection and semantic segmentation. Code is available at https://github.com/Andrew-Qibin/CoordAttention.

연구 동기 및 목표

  • 모바일 네트워크에서 공간(위치) 정보를 보존하는 주의 메커니즘의 필요성을 제시한다.
  • 좌표 정보를 내재화하면서 계산 비용을 낮게 유지하는 새로운 주의 블록을 제안한다.
  • Coordinate Attention이 기존의 모바일 빌딩 블록(예: MobileNetV2, MobileNeXt, EfficientNet)에 최소한의 오버헤드로 플러그인될 수 있음을 보여준다.
  • ImageNet 분류 및 객체 탐지나 의미 분할과 같은 다운스트림 작업에서의 향상을 입증한다.

제안 방법

  • 채널 주의를 수평 및 수직 방향으로 풀링하는 두 개의 병렬 1D 특징 인코딩 프로세스로 분해한다.
  • 두 개의 1D 풀링 특징을 연결하고 공유된 1x1 합성을 통해 방향 인지 주의 맵(g^h 및 g^w)을 생성한다.
  • 주의 맵을 입력 특징 맵에 원소별 곱으로 적용한다: Y_c(i,j) = X_c(i,j) * g^h_c(i) * g^w_c(j).
  • 계산 축소 비율 r을 사용하여 병목 크기를 제어하고 모바일 환경에서 계산을 가볍게 유지한다.
  • inverted residual blocks(MobileNetV2) 및 sandglass bottlenecks(MobileNeXt)와의 플러그인 호환성을 시연하고 ImageNet, COCO, VOC, Cityscapes에서 평가한다.
Figure 1: Performance of different attention methods on three classic vision tasks. The y-axis labels from left to right are top-1 accuracy, mean IoU, and AP, respectively. Clearly, our approach not only achieves the best result in ImageNet classification [ 33 ] against the SE block [ 18 ] and CBAM
Figure 1: Performance of different attention methods on three classic vision tasks. The y-axis labels from left to right are top-1 accuracy, mean IoU, and AP, respectively. Clearly, our approach not only achieves the best result in ImageNet classification [ 33 ] against the SE block [ 18 ] and CBAM

실험 결과

연구 질문

  • RQ1두 개의 1D 풀링을 통해 좌표 정보를 내재화하는 것이 모바일 네트워크에서 SE와 CBAM에 비해 성능을 향상시키는가?
  • RQ2기저 주의 방법과 비교했을 때, MobileNetV2, MobileNeXt, EfficientNet과 같은 다양한 모바일 백본에 플러그인했을 때 Coordinate Attention의 성능은 어떤가?
  • RQ3정확도와 모델 크기에 대한 축소 비율의 영향은 무엇이며, coordinate attention가 이 하이퍼파라미터에 대해 얼마나 강건한가?
  • RQ4Coordinate-attention이 장착된 모델이 객체 탐지 및 의미 분할과 같은 다운스트림 작업으로의 전이에서 다른 경량 주의보다 더 우수한가?

주요 결과

  • Coordinate Attention은 모바일 네트워크에서 ImageNet 분류에 대해 SE 및 CBAM보다 우수한 성능을 보인다.
  • 두 개의 1D 풀링을 통한 공간 좌표 정보의 내재화는 위치 정보를 활용한 장거리 의존성을 보존하여 관심 객체의 위치화를 향상시킨다.
  • 테스트된 백본들(MobileNetV2, MobileNeXt, EfficientNet) 전반에 걸쳐 Coordinate Attention은 일관된 이득을 주고 최소한의 오버헤드를 가지며, 객체 탐지 및 의미 분할과 같은 다운스트림 작업에서 주목할 만한 개선을 보인다.
  • 절제 분석은 수평 주의와 수직 주의의 결합이 각각 단독으로 사용하는 것보다 더 효과적임을 보여주며, 좌표 정보 내재화의 가치를 확인한다.
  • 시각화 결과 Coordinate Attention이 SE 및 CBAM에 비해 특징 맵에서 관심 객체를 더 잘 강조한다.
Figure 2: Schematic comparison of the proposed coordinate attention block (c) to the classic SE channel attention block [ 18 ] (a) and CBAM [ 44 ] (b). Here, “GAP” and “GMP” refer to the global average pooling and global max pooling, respectively. ‘X Avg Pool’ and ’Y Avg Pool’ refer to 1D horizontal
Figure 2: Schematic comparison of the proposed coordinate attention block (c) to the classic SE channel attention block [ 18 ] (a) and CBAM [ 44 ] (b). Here, “GAP” and “GMP” refer to the global average pooling and global max pooling, respectively. ‘X Avg Pool’ and ’Y Avg Pool’ refer to 1D horizontal

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.