QUICK REVIEW

[논문 리뷰] Lightweight Vision Transformer with Bidirectional Interaction

Qihang Fan, Huaibo Huang|arXiv (Cornell University)|2023. 06. 01.

Visual Attention and Saliency Detection인용 수 13

한 줄 요약

완전적 적응형 자기 주의(FASA)를 통해 로컬 및 global 특징의 양방향 상호작용을 모델링하는 경량 백본(FAT) 패밀리를 제시하며, 최소 매개변수와 FLOPs로 ImageNet, COCO, ADE20K에서 강력한 결과를 달성합니다.

ABSTRACT

Recent advancements in vision backbones have significantly improved their performance by simultaneously modeling images' local and global contexts. However, the bidirectional interaction between these two contexts has not been well explored and exploited, which is important in the human visual system. This paper proposes a Fully Adaptive Self-Attention (FASA) mechanism for vision transformer to model the local and global information as well as the bidirectional interaction between them in context-aware ways. Specifically, FASA employs self-modulated convolutions to adaptively extract local representation while utilizing self-attention in down-sampled space to extract global representation. Subsequently, it conducts a bidirectional adaptation process between local and global representation to model their interaction. In addition, we introduce a fine-grained downsampling strategy to enhance the down-sampled self-attention mechanism for finer-grained global perception capability. Based on FASA, we develop a family of lightweight vision backbones, Fully Adaptive Transformer (FAT) family. Extensive experiments on multiple vision tasks demonstrate that FAT achieves impressive performance. Notably, FAT accomplishes a 77.6% accuracy on ImageNet-1K using only 4.5M parameters and 0.7G FLOPs, which surpasses the most advanced ConvNets and Transformers with similar model size and computational costs. Moreover, our model exhibits faster speed on modern GPU compared to other models. Code will be available at https://github.com/qhfan/FAT.

연구 동기 및 목표

로컬 및 글로벌 정보를 동시에 모델링해야 할 필요성에 대한 동기를 부여합니다.
로컬/글로벌 표현과 양방향 상호작용을 포착하기 위한 Fully Adaptive Self-Attention(FASA) 모듈을 소개합니다.
분류, 탐지, 분할을 위한 경량 백본 패밀리인 Fully Adaptive Transformer(FAT)을 개발합니다.
자가 주의에서 세부 정보를 보존하면서 효율성을 유지하기 위한 미세한 다운샘플링으로 글로벌 인식을 개선합니다.

제안 방법

CAFA 기반의 세 가지 구성요소로 구성된 FASA를 도입합니다: 글로벌 적응적 집계, 로컬 적응적 집계, 그리고 양방향 적응 상호작용.
전역 집계에서 미세한 다운샘플링을 사용하여 비용이 과도하지 않으면서 글로벌 인식을 개선합니다.
합성 스템, CPE, ConvFFN 및 짧은 연결을 갖춘 계층적 FAT 백본에 FASA를 내장합니다.
ImageNet-1K, COCO, ADE20K에서 분류, 탐지/분할 및 의미 분할 작업 전반에 걸쳐 FAT를 훈련하고 평가합니다.
양방향 상호작용의 효과성, 미세한 다운샘플링, 위치 인코딩의 ablation을 제공합니다.

실험 결과

연구 질문

RQ1로컬 및 글로벌 특징 간의 양방향 상호작용이 매개변수나 FLOPs를 크게 증가시키지 않으면서 경량 Vision Transformer의 성능을 향상시킬 수 있을까?
RQ2자가 주의에서 미세한 다운샘플링 전략이 대규모 스트라이드 다운샘플링보다 글로벌 정보를 더 잘 보존하는가?
RQ3FAT가 ImageNet-1K, COCO, ADE20K에서 정확도와 효율성 면에서 최첨단 경량 백본과 어떻게 비교되는가?

주요 결과

모델	입력	매개변수(M)	FLOPs(G)	처리량(img/s)	Top-1 (%)
FAT-B0	224^2	4.5	0.7	1932	77.6
FAT-B1	224^2	7.8	1.2	1452	80.1
FAT-B2	224^2	13.5	2.0	1064	81.9
FAT-B3	224^2	29.0	4.4	474	83.6

FAT-B0는 ImageNet-1K에서 4.5M 매개변수와 0.7 GFLOPs로 top-1 정확도 77.6%를 달성합니다.
FAT-B1, FAT-B2, FAT-B3는 비슷한 비용으로 경량 백본 중 최첨단 수준에 도달합니다. 예를 들어 FAT-B3는 ImageNet-1K에서 top-1 83.6%에 도달합니다.
ADE20K에서 FAT-B1, FAT-B2, FAT-B3는 경쟁 경량 백본 대비 mIoU를 개선합니다(예: FAT-B1 +1.5 mIoU, EdgeViT-XS 대비, FAT-B3 +0.7 mIoU Shunted-S 대비).
COCO 객체 탐지/인스턴스 분할에서 FAT 백본은 RetinaNet 및 Mask R-CNN 설정에서 상대방보다 우수한 성능을 보입니다.
ablation은 양방향 적응 상호작용이 단순 융합 베이스라인보다 우수하고, 미세한 다운샘플링이 비중복 풀링/다운샘플링 변형보다 우수함을 확인합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.