Skip to main content
QUICK REVIEW

[논문 리뷰] SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition

Qiang Wan, Zilong Huang|arXiv (Cornell University)|2023. 01. 30.
Advanced Neural Network Applications인용 수 82
한 줄 요약

SeaFormer++는 축소-강화 Axial Transformer 블록을 도입하여 의미 분할 및 이미지 분류를 위한 모바일 친화적 백본을 구축하고, ARM 디바이스에서 낮은 지연과 함께 최첨단 정확도를 달성합니다.

ABSTRACT

Since the introduction of Vision Transformers, the landscape of many computer vision tasks (e.g., semantic segmentation), which has been overwhelmingly dominated by CNNs, recently has significantly revolutionized. However, the computational cost and memory requirement renders these methods unsuitable on the mobile device. In this paper, we introduce a new method squeeze-enhanced Axial Transformer (SeaFormer) for mobile visual recognition. Specifically, we design a generic attention block characterized by the formulation of squeeze Axial and detail enhancement. It can be further used to create a family of backbone architectures with superior cost-effectiveness. Coupled with a light segmentation head, we achieve the best trade-off between segmentation accuracy and latency on the ARM-based mobile devices on the ADE20K, Cityscapes, Pascal Context and COCO-Stuff datasets. Critically, we beat both the mobilefriendly rivals and Transformer-based counterparts with better performance and lower latency without bells and whistles. Furthermore, we incorporate a feature upsampling-based multi-resolution distillation technique, further reducing the inference latency of the proposed framework. Beyond semantic segmentation, we further apply the proposed SeaFormer architecture to image classification and object detection problems, demonstrating the potential of serving as a versatile mobile-friendly backbone. Our code and models are made publicly available at https://github.com/fudan-zvg/SeaFormer.

연구 동기 및 목표

  • 모바일 장치의 연산 한계로 인한 픽셀 단위의 정확한 분할 필요성에 대한 동기 부여.
  • 고해상도 입력에서 글로벌 어텐션 비용을 줄이는 경량 Transformer 기반 백본 제안.
  • SEA 어텐션 설계로 글로벌 의미 추출과 로컬 디테일 강화를 결합.
  • 정확도-지연 상호 작용을 최적화하기 위한 SeaFormer 백본 계열 및 경량 분할 헤드 구축.
  • SeaFormer를 이미지 분류와 같은 세그먼트 외 영역에도 적용하여 다재다능성 시연.

제안 방법

  • 수평 축소(squeeze) 및 수직 축소를 수행하여 복잡도를 O(HW)로 낮추는 squeeze-enhanced Axial attention(SEA attention)을 도입.
  • 세밀한 디테일 정보를 회복하기 위해 축소 Axial attention과 디테일 강화 컨볼루션 경로를 결합.
  • 위치 정보를 주입하기 위해 squeeze axial 위치 임베딩을 도입.
  • 고해상도 공간 특징에 고수준 의미를 주입하기 위한 컨텍스트-공간의 2-브랜치 아키텍처와 융합 블록.
  • 빠른 모바일 추론을 위한 경량 분할 헤드를 부착.
  • 네 가지 SeaFormer 변형(Tiny, Small, Base, Large)과 ADE20K 및 Cityscapes에서의 결과, 그리고 ImageNet-1K 분류를 제시.
Figure 1: Left : Latency comparison with Transformer Vaswani et al. ( 2017 ) , MixFormer Chen et al. ( 2022a ) , ACmix Pan et al. ( 2022b ) , Axial attention Ho et al. ( 2019 ) and local attention Luong et al. ( 2015 ) . It is measured with a single module of channel dimension 64 on a Qualcomm Snapd
Figure 1: Left : Latency comparison with Transformer Vaswani et al. ( 2017 ) , MixFormer Chen et al. ( 2022a ) , ACmix Pan et al. ( 2022b ) , Axial attention Ho et al. ( 2019 ) and local attention Luong et al. ( 2015 ) . It is measured with a single module of channel dimension 64 on a Qualcomm Snapd

실험 결과

연구 질문

  • RQ1고해상도 분할에서 정확도를 희생하지 않으면서 자기 주의(attention)를 모바일 친화적으로 만드는 방법은 무엇인가?
  • RQ2컨텍스트-공간의 2-브랜치 모바일 백본이 ARM 디바이스에서 낮은 지연으로 경쟁력 있는 mIoU를 달성할 수 있는가?
  • RQ3글로벌 squeeze Axial 정보와 로컬 디테일 강화를 결합하면 전통적 어텐션 및 다른 효율적 백본보다 우수한가?
  • RQ4SeaFormer가 세그먼트뿐 아니라 백본으로 이미지 분류에서도 잘 작동할 만큼 다재다능한가?

주요 결과

백본FLOPsmIoU(val)mIoU(test)레이턴시 (ms)
SeaFormer-T0.6G35.035.8 ± 0.3540
SeaFormer-S1.1G38.139.4 ± 0.2567
SeaFormer-B1.8G40.241.0 ± 0.45106
SeaFormer-L6.5G42.743.7 ± 0.36367
  • SeaFormer 변형들은 모바일 친화적 경쟁자 및 Transformer 기반 기준선에 비해 ADE20K 및 Cityscapes에서 우수한 정확도-지연 트레이드오프를 달성한다.
  • SeaFormer-B 및 SeaFormer-L은 MobileNetV3 및 기타 경량 백본보다 더 낮거나 비슷한 지연으로 더 높은 mIoU를 달성한다(예: SeaFormer-B: 40.2 mIoU with 106 ms latency; SeaFormer-L: 42.7 mIoU with 367 ms latency).
  • SeaFormer-S*는 67 ms 지연에서 39.4 ± 0.25 mIoU, SeaFormer-L*는 367 ms 지연에서 43.7 ± 0.36 mIoU를 달성하여 모바일 규모의 지연에서도 강력한 정확도를 보여준다.
  • 세부 정보 강화와 축소 Axial attention의 조합이 각각의 구성 요소를 단독으로 사용할 때보다 의미 있는 이점을 준다는 연구 분석 결과를 보였다.
  • SeaFormer-T는 경량 헤드를 갖추고 모바일 하드웨어에서 낮은 지연(약 40 ms 영역)으로 경쟁력 있는 결과를 제공한다.
Figure 2: The overall architecture of SeaFormer. It contains shared STEM, context branch ( red ), spatial branch ( blue ), fusion block and light segmentation head. MV2 block means MobileNetV2 block and MV2 $\downarrow$ 2 means MobileNetV2 block with downsampling. SeaFormer layers and fusion block w
Figure 2: The overall architecture of SeaFormer. It contains shared STEM, context branch ( red ), spatial branch ( blue ), fusion block and light segmentation head. MV2 block means MobileNetV2 block and MV2 $\downarrow$ 2 means MobileNetV2 block with downsampling. SeaFormer layers and fusion block w

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.