Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Local Perception in Lightweight Vision Transformer

Qihang Fan, Huaibo Huang|arXiv (Cornell University)|2023. 03. 31.
Visual Attention and Saliency Detection인용 수 32
한 줄 요약

CloFormer은 고주파 로컬 특징을 위해 공유 가중치와 맥락 인식 가중치를 융합하는 로컬 AttnConv 브랜치와 저주파 글로벌 정보를 위한 다운샘플 글로벌 어텐션 브랜치를 갖춘 경량 비전 트랜스포머로, 낮은 FLOPs에서도 강한 정확도를 달성합니다.

ABSTRACT

Vision Transformers (ViTs) have been shown to be effective in various vision tasks. However, resizing them to a mobile-friendly size leads to significant performance degradation. Therefore, developing lightweight vision transformers has become a crucial area of research. This paper introduces CloFormer, a lightweight vision transformer that leverages context-aware local enhancement. CloFormer explores the relationship between globally shared weights often used in vanilla convolutional operators and token-specific context-aware weights appearing in attention, then proposes an effective and straightforward module to capture high-frequency local information. In CloFormer, we introduce AttnConv, a convolution operator in attention's style. The proposed AttnConv uses shared weights to aggregate local information and deploys carefully designed context-aware weights to enhance local features. The combination of the AttnConv and vanilla attention which uses pooling to reduce FLOPs in CloFormer enables the model to perceive high-frequency and low-frequency information. Extensive experiments were conducted in image classification, object detection, and semantic segmentation, demonstrating the superiority of CloFormer. The code is available at \url{https://github.com/qhfan/CloFormer}.

연구 동기 및 목표

  • 모바일 사이즈 ViT의 성능 저하를 개선하여 로컬 인식을 향상시키는 동기 부여 및 해결.
  • 공유(합성) 가중치와 맥락 인식(어텐션 유사) 가중치를 혼합한 경량 백본 설계.
  • AttnConv를 제안하여 변환 등가성을 유지하면서 고주파 로컬 정보를 포착.
  • 로컬 AttnConv 브랜치와 다운샘플 글로벌 어텐션 브랜치를 결합하여 고주파 및 저주파 정보를 모델링.
  • 이미지 분류, 객체 탐지, 의미론적 분할에서 FLOPs 및 매개변수 측면에서 경쟁력 있게 효과를 입증.

제안 방법

  • 깊이별 합성(shared weights)을 사용하여 로컬 정보를 수집한 후 Q, K 처리 및 비선형 변환(Tanh 및 Swish 포함)을 통해 컨텍스트 인식 가중치를 생성하는 주의 스타일의 합성 연산자 AttnConv를 도입.
  • 로컬 브랜치(AttnConv)로 고주파 정보를, 글로발 브랜치(다운샘플된 K와 V)로 저주파 정보를 처리하는 두-브랜치 Clo 블록 사용.
  • 로컬 및 글로벌 브랜치 출력을 연결(concatenation)하고 최종 완전연결층으로 융합.
  • 일반 FFN을 ConvFFN(DWconv 후 GELU)으로 교체하여 네트워크 전반에 로컬 정보를 주입.
  • 네 가지 단계 CloFormer 변형과 점진적으로 증가하는 AttnConv 커널 크기(3에서 9)로 고주파에서 저주파까지의 특징 포착.

실험 결과

연구 질문

  • RQ1공유 가중치와 맥락 인식 가중치를 결합하여 경량 ViT의 로컬 인식을 향상시킬 수 있는가?
  • RQ2모바일 제약 하에서 두-브랜치 아키텍처가 고주파 로컬 정보와 저주파 글로벌 정보를 효과적으로 융합할 수 있는가?
  • RQ3AttnConv이 전통적인 합성이나 자체 어텐션보다 향상된 비선형, 변환 등가적 로컬 인식 메커니즘을 제공하는가?

주요 결과

모델매개변수(M)FLOPs(G)Top1(%)CPU(ms)GPU(imgs/s)메모리(GB)
CloFormer-XXS4.20.677.044.124253.4
CloFormer-XS7.21.179.862.416764.7
CloFormer-S12.32.081.693.111866.3
EdgeViT-XXS4.10.674.442.119262.6
  • CloFormer-XXS는 이미지넷-1K에서 Top-1 77.0%를 달성하며 매개변수 4.2M 및 0.6 GFLOPs.
  • CloFormer-XS는 7.2M 매개변수와 1.1 GFLOPs로 ImageNet-1K에서 Top-1 79.8%.
  • CloFormer-S는 12.3M 매개변수와 2.0 GFLOPs로 Top-1 81.6%.
  • COCO 객체 탐색에서 CloFormer-XXS는 유사 경량 백본 대비 최대 0.9의 AP 향상을 보임(예: EdgeViT 변형).
  • ADE20K 의미론적 분할에서 CloFormer-XXS/XS는 EdgeViT 변형 대비 최대 0.7–1.0 포인트의 더 높은 mIoU를 달성.
  • 변형 연구에서 AttnConv(스위시-탄 비선형 및 DWconv으로 Q/K 사용)가 공유-전용 구성이 아니라 맥락-어텐션 구성보다 ImageNet, COCO, ADE20K에서 우수하다는 것을 보임.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.