Skip to main content
QUICK REVIEW

[논문 리뷰] DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition

Jiayu Jiao, Yuming Tang|arXiv (Cornell University)|2023. 02. 03.
Advanced Neural Network Applications인용 수 12
한 줄 요약

DilateFormer은 Sliding Window Dilated Attention 및 MSDA를 도입한 다중 스케일 확장 변환기로, 이전 SOTA Vision Transformers에 비해 현저히 더 적은 FLOPs로 ImageNet, COCO, ADE20K에서 강력한 성능을 달성한다.

ABSTRACT

As a de facto solution, the vanilla Vision Transformers (ViTs) are encouraged to model long-range dependencies between arbitrary image patches while the global attended receptive field leads to quadratic computational cost. Another branch of Vision Transformers exploits local attention inspired by CNNs, which only models the interactions between patches in small neighborhoods. Although such a solution reduces the computational cost, it naturally suffers from small attended receptive fields, which may limit the performance. In this work, we explore effective Vision Transformers to pursue a preferable trade-off between the computational complexity and size of the attended receptive field. By analyzing the patch interaction of global attention in ViTs, we observe two key properties in the shallow layers, namely locality and sparsity, indicating the redundancy of global dependency modeling in shallow layers of ViTs. Accordingly, we propose Multi-Scale Dilated Attention (MSDA) to model local and sparse patch interaction within the sliding window. With a pyramid architecture, we construct a Multi-Scale Dilated Transformer (DilateFormer) by stacking MSDA blocks at low-level stages and global multi-head self-attention blocks at high-level stages. Our experiment results show that our DilateFormer achieves state-of-the-art performance on various vision tasks. On ImageNet-1K classification task, DilateFormer achieves comparable performance with 70% fewer FLOPs compared with existing state-of-the-art models. Our DilateFormer-Base achieves 85.6% top-1 accuracy on ImageNet-1K classification task, 53.5% box mAP/46.1% mask mAP on COCO object detection/instance segmentation task and 51.1% MS mIoU on ADE20K semantic segmentation task.

연구 동기 및 목표

  • 비전 트랜스포머에서 전역 자기 주의의 이차 비용과 중복을 줄이려는 동기를 부여하면서도 성능을 유지하거나 향상시키는 것.
  • 얕은 계층의 패치 상호작용을 분석하여 국소성(locality)과 희소성(sparsity)을 밝히고, 효율적인 주의 메커니즘 설계에 가이드를 제공한다.
  • 피라미드 변환기 내에서 로컬 및 다중 스케일 패치 의존성을 모델링하기 위해 SWDA와 MSDA를 제안한다.
  • 얕은 단계에서 MSDA를, 깊은 단계에서 MHSA를 결합하여 DilateFormer 백본을 구성하고 분류, 탐지 및 분할 작업에서 평가한다.

제안 방법

  • 각 쿼리 패치 주위의 확장된 슬라이딩 윈도우에서 선택적으로 샘플된 패치들 간에 자기 주의를 수행하기 위해 Sliding Window Dilated Attention(SWDA)을 제안한다.
  • 다양한 확장 비율(예: 1, 2, 3)로 채널을 헤드로 나누어 주의 영역 내에서 다중 스케일 의존성을 포착하기 위해 Multi-Scale Dilated Attention(MSDA)을 도입한다.
  • 얕은 단계에서 MSDA를 사용하고 깊은 단계에서 표준 MHSA를 사용하는 피라미드 아키텍처를 활용하여 계산 비용을 줄이면서 다중 스케일 특징 추출을 가능하게 한다.
  • 패치 임베딩과 해상도 제어를 위해 겹치는 토크나이저와 겹치는 다운샘플러를 채택하고, 입력 해상도 적응성을 위해 depth-wise 합성곱을 통한 Conditional Position Embedding(CPE)을 적용한다.
  • 세 가지 모델 변형(Tiny, Small, Base)을 단계별 구성으로 제공하고 ImageNet-1K, COCO 및 ADE20K 전반에 걸쳐 이전 Vision Transformers 대비 개선을 보고한다.

실험 결과

연구 질문

  • RQ1SWDA가 전역 자기 주의에 비해 계산 비용을 줄이면서 성능을 유지하거나 향상시키는가?
  • RQ2MSDA가 추가 매개변수나 비용 없이 단일 블록 내에서 다중 스케일 컨텍스트를 효과적으로 포착할 수 있는가?
  • RQ3피라미드 DilateFormer 백본이 ImageNet-1K 분류, COCO 객체 탐지/분할, ADE20K 시맨틱 분할에서 최첨단과 비교하여 어떤 성능을 보이는가?
  • RQ4얕은 단계에서 MSDA를 사용하고 깊은 단계에서 MHSA를 사용하는 비전 작업 간의 트레이드오프는 무엇인가?

주요 결과

  • DilateFormer은 ImageNet-1K에서 상당히 적은 FLOPs로 최첨단에 근접한 정확도를 달성하며, 예를 들어 Dilate-S는 4.8 GFLOPs에서 83.3%의 탑-1을 달성하고; Dilate-B는 10.0 GFLOPs에서 84.4%–85.6%의 탑-1을 다양한 설정에서 달성한다.
  • Token Labeling을 사용하면 Dilate-S⋆와 Dilate-B⋆가 ImageNet-1K에서 각각 83.9%와 84.9%의 탑-1 정확도에 도달하며, 몇몇 LV-ViT 변형보다 비슷한 비용에서 우수한 성능을 보인다.
  • COCO 객체 탐지/인스턴스 분할에서 Dilate-B는 표준 구성에서 상자 mAP 53.5%, 마스크 mAP 46.1%를 달성하고, 대안 일정에서 49.9/43.7로 나타나며; ADE20K에서 Dilate-B는 51.1% MS mIoU를 달성한다.
  • DilateFormer는 일부 SOTA Vision Transformers에 비해 70%의 FLOPs를 절감하면서도 비슷하거나 더 나은 성능을 보여주며, MSDA의 효율성과 locality-sparsity 지향 설계의 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.