[논문 리뷰] Rethinking Mobile Block for Efficient Attention-based Models
메타 모바일 블록(MMB)을 도입하여 CNN 유사 역잉 잔여 블록과 주의 모듈을 통합하고, iRMB 기반 EMO 모델이 ImageNet, COCO, ADE20K에서 최첨단 경량 CNN/Transformer 방법보다 매개변수와 FLOPs가 적은 상태로 우수한 성능을 보임.
This paper focuses on developing modern, efficient, lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterpart has been recognized by attention-based studies. This work rethinks lightweight infrastructure from efficient IRB and effective components of Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMB) for lightweight model design. Following simple but effective design criterion, we deduce a modern Inverted Residual Mobile Block (iRMB) and build a ResNet-like Efficient MOdel (EMO) with only iRMB for down-stream tasks. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, e.g., EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass equal-order CNN-/Attention-based models, while trading-off the parameter, efficiency, and accuracy well: running 2.8-4.0x faster than EdgeNeXt on iPhone14.
연구 동기 및 목표
- 모바일/밀집 예측 작업에서 매개변수, FLOPs 및 정확도 간의 균형을 맞춘 경량의 효율적인 백본의 필요성을 동기화한다.
- 효율성을 위한 일반화된 역산류와 Transformer 구성요소를 하나의 unified block(MMB)로 제시한다.
- 현대적 역잉 잔여 모바일 블록(iRMB)을 유도하고 iRMB들로만 구성된 ResNet-유사 EMO 모델을 구축한다.
- EMO가 분류 및 다운스트림 태스크 전반에서 SoTA 경량 CNN/Transformer 모델보다 우수한 성능을 보임을 입증한다.
제안 방법
- Transformer의 FFN 및 MHSA 및 MobileNetv2의 IRB의 공유 구조에서 하나의 잔여 메타 모바일 블록(MMB)을 추상화한다.
- 이중 DW-Conv와 향상된 EW-MHSA를 계단식으로 연결하여 로컬 및 장거리 의존성을 모델링하는 역잉 모바일 블록(iRMB)을 구체화한다.
- 원래 특성 맵에서 Q/K를 계산하고 확장된 채널을 통해 V를 얻고, 그다음 MLP_e로 확장한 EW-MHSA를 도입하고 다시 채널을 복원하기 위해 MLP_s를 사용한다.
- iRMB들로만 구성된 4단계 ResNet-유사 EMO를 구축하여 밀도 예측 작업을 수행한다.
- ImageNet-1K, COCO 2017, ADE20K에서 EMO를 검증하여 낮은 매개변수/ FLOPs로도 경쟁력 있는 Top-1, mAP, 및 mIoU를 보여준다.
실험 결과
연구 질문
- RQ1CNN에서 파생된 경량 인프라이어(IRB)에서 영감을 받은 경량 인프라를 복잡한 모듈을 추가하지 않고 주의 기반 모델로 확장할 수 있는가?
- RQ2통합 메타 모바일 블록(MMB)이 IRB, MHSA, FFN의 필수 작동을 포착하여 효율적인 iRMB 설계를 가능하게 하는가?
- RQ3iRMB 기반 EMO 백본은 분류 및 밀집 예측 벤치마크에서 CNN- 및 Transformer 기반의 경량 모델에 비해 어떤 성능을 보이는가?
- RQ4다양한 스케일(1M/2M/5M)에서 EW-MHSA와 DW-Conv를 iRMB 내에서 사용할 때 정확도, 매개변수, FLOPs 간의 트레이드-오프는 어떠한가?
주요 결과
- EMO-1M/2M/5M은 ImageNet-1K에서 Top-1 71.5, 75.1, 78.4를 달성하며 동등한 순서의 CNN-/Attention 기반 모델을 능가한다.
- EMO-1M/2M/5M은 SSDLite와 함께 COCO 2017에서 각각 22.0, 25.2, 27.9 mAP를 달성하는데, 매개변수 2.3M/3.3M/6.0M 및 FLOPs 0.6G/0.9G/1.8G만 사용한다.
- EMO-5M/EMO-6M은 ImageNet-1K에서 78.4/79.0 Top-1에 도달하며 많은 NAS 기반 EfficientNet/EfficientFormer 대비 매개변수가 현저히 적다.
- 밀집 예측을 위한 DeepLabv3 기반에서 EMO는 ADE20K에서 33.5/35.3/37.8 mIoU를 달성하며 비슷한 또는 더 낮은 FLOPs에서 MobileViTv2 변형들을 능가한다.
- EMO는 간단한 iRMB 설계로 CPU/GPU 및 모바일 기기에서 처리량이 더 빠르다(예: EdgeNeXt 대비 iPhone14에서 2.8×–4.0× 가속).
- 절개 분석은 EW-MHSA와 DW-Conv가 각각 상당한 이점을 제공하며, 둘 다 사용할 때 최상의 결과(78.4 Top-1)가 나온다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.