Skip to main content
QUICK REVIEW

[논문 리뷰] FasterViT: Fast Vision Transformers with Hierarchical Attention

Ali Hatamizadeh, Greg Heinrich|arXiv (Cornell University)|2023. 06. 09.
Advanced Neural Network Applications인용 수 35
한 줄 요약

FasterViT는 Hierarchical Attention를 갖춘 하이브리드 CNN–ViT 아키텍처로, 더 높은 이미지 처리량과 경쟁력 있는 정확도를 달성하여 비전 모델의 새로운 Pareto 프런트를 형성합니다. carrier tokens와 windowed local attention을 활용하여 비용을 줄이면서 글로벌 상호작용을 가능하게 합니다.

ABSTRACT

We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy and image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.

연구 동기 및 목표

  • 고해상도 CV task를 위한 효율적이고 고처리량의 Vision Transformer 아키텍처의 필요성을 동기 부여합니다.
  • 처처-than 정확도를 희생하지 않으면서 처리량에 최적화된 하이브리드 CNN–ViT 디자인인 FasterViT를 소개합니다.
  • 복잡도가 낮아도 확장 가능한 교차 윈도우 통신을 가능하게 하는 Hierarchical Attention를 개발합니다.
  • 이미지 분류, 객체 탐지, 시맨틱 세분화에서 FasterViT의 효과를 입증합니다.
  • Hierarchical Attention가 기존 네트워크에 플러그 앤 플레이 모듈로 작용할 수 있음을 보입니다.

제안 방법

  • 초기 단계에서 CNN 블록을 사용하고 후반 단계에서 트랜스포머 블록을 사용하는 네 단계 하이브리드 아키텍처로 FasterViT를 제안합니다.
  • Carrier tokens를 사용하여 로컬 윈도를 요약하고 윈도우 간 상호작용을 가능하게 하는 Hierarchical Attention(HAT)를 소개합니다.
  • 두 단계로 어텐션을 계산합니다: 로컬 윈도우 어텐션과 전용 carrier tokens, 그런 다음 전파-global 정보를 carrier-token 어텐션을 통해 전달합니다.
  • 입력 해상도에 대해 대략 선형적으로 비용이 증가하도록 절대적 2D 위치 편향과 SwinV2에서 영감을 얻은 상대 위치 편향을 적용합니다.
  • 윈도우 기반 어텐션과 carrier tokens로 인해 전체 비용이 입력 해상도에 거의 선형적으로 증가하는 복잡도 분석을 제공합니다.
  • ImageNet-1K, MS COCO 및 ADE20K에서 광범위한 실험으로 검증하며, ImageNet-21K 사전 학습을 포함합니다.
Figure 2: Visualization of the proposed Hierarchical Attention in the feature space. By performing local window attention and hierarchical attention we can achieve global information propagation at reduced costs.Best viewed in color.
Figure 2: Visualization of the proposed Hierarchical Attention in the feature space. By performing local window attention and hierarchical attention we can achieve global information propagation at reduced costs.Best viewed in color.

실험 결과

연구 질문

  • RQ1Hierarchical Attention가 고처리량 입력에 대해 효과적인 장거리 모델링을 가능하게 하면서도 고처리량을 유지할 수 있는가?
  • RQ2FasterViT 아키텍처가 분류, 탐지 및 세분화 작업에서 기존 ViT 및 하이브리드 모델보다 더 나은 정확도-처리량 트레이드오프를 제공하는가?
  • RQ3HAT가 기존 CNN–ViT 아키텍처를 개선하는 실행 가능한 플러그 앤 플레이 모듈인가?
  • RQ4대형 데이터셋(예: ImageNet-21K)에서 사전 학습하고 더 높은 해상도에서 파인튜닝할 때 FasterViT의 확장은 어떻게 되는가?

주요 결과

모델이미지 크기처리량(이미지/초)Top-1 (%)
FasterViT-0224580282.1
FasterViT-1224418883.2
FasterViT-2224316184.2
FasterViT-3224178084.9
FasterViT-422484985.4
  • FasterViT는 여러 모델 크기에서 ImageNet-1K의 이미지 처리량과 Top-1 정확도 간의 새로운 Pareto 프런트를 달성합니다.
  • FasterViT-2에서 FasterViT-4는 Swin 및 ConvNeXt 벤치마크 대비 처리량이 현저히 높으면서도 정확도는 동일하거나 더 우수합니다(예: FasterViT-2는 224 입력에서 3161 Img/Sec로 Top-1 84.2%를 달성).
  • Hierarchical Attention(HAT)는 ablation에서 보았듯이 다른 주의 설계(Twins, EdgeViT) 대비 정확도 대비 처리량을 크게 향상시킵니다.
  • ImageNet-21K에서의 사전 학습 후 ImageNet-1K에서의 파인튜닝으로 FasterViT-4가 강력한 처리량과 정확도를 달성합니다(예: 384 입력에서 36.6 GFlops 및 119.2 Img/Sec로 표 2에서 최대 86.6% Top-1).
  • FasterViT는 MS COCO 객체 탐지/인스턴스 세분화 및 ADE20K 시맨틱 세분화에서 경쟁적이거나 우수한 결과를 제공하며, 유사한 ViT 기반 모델보다 더 높은 처리량을 보입니다.
  • ablation 연구는 높은 처리량을 달성하면서 정확도를 유지하는 데 HAT 구성요소(CTs, CT 어텐션, 어텐션 바이어스)의 중요성을 확인합니다.
Figure 3: Overview of the FasterViT architecture. We use a multi-scale architecture with CNN and transformer-based blocks in stages 1, 2 and 3, 4, respectively. Best viewed in color.
Figure 3: Overview of the FasterViT architecture. We use a multi-scale architecture with CNN and transformer-based blocks in stages 1, 2 and 3, 4, respectively. Best viewed in color.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.