Skip to main content
QUICK REVIEW

[논문 리뷰] LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference

Ben Graham, Alaaeldin El-Nouby|arXiv (Cornell University)|2021. 04. 02.
Advanced Neural Network Applications참고 문헌 66인용 수 91
한 줄 요약

LeViT는 더 좁은 DeiT 블록으로도 속도 경쟁력을 유지하면서 더 넓은 블록과 MLP 확장 축소 등 설계 선택으로 추론 속도를 더 빠르게 만드는 피라미드 구조의 Vision Transformer를 제안합니다. 보조 자료는 자세한 블록 타이밍 및 어텐션 바이어스 시각화를 제공합니다.

ABSTRACT

We design a family of image classification architectures that optimize the trade-off between accuracy and efficiency in a high-speed regime. Our work exploits recent findings in attention-based architectures, which are competitive on highly parallel processing hardware. We revisit principles from the extensive literature on convolutional neural networks to apply them to transformers, in particular activation maps with decreasing resolutions. We also introduce the attention bias, a new way to integrate positional information in vision transformers. As a result, we propose LeVIT: a hybrid neural network for fast inference image classification. We consider different measures of efficiency on different hardware platforms, so as to best reflect a wide range of application scenarios. Our extensive experiments empirically validate our technical choices and show they are suitable to most architectures. Overall, LeViT significantly outperforms existing convnets and vision transformers with respect to the speed/accuracy tradeoff. For example, at 80% ImageNet top-1 accuracy, LeViT is 5 times faster than EfficientNet on CPU. We release the code at https://github.com/facebookresearch/LeViT

연구 동기 및 목표

  • Vision Transformer의 블록 설계 및 피라미드 구조를 재고해 더 빠른 추론을 motivate한다.
  • 비교 가능한 해상도와 계산 예산에서 LeViT 블록과 DeiT 블록의 런타임을 특징짓는다.
  • 피라미드 구조와 블록 너비가 전체 효율성에 미치는 영향을 조사한다.
  • LeViT 블록 간 어텐션 동작을 설명하기 위한 제거 실험과 시각화를 제공한다.

제안 방법

  • 14x14 해상도에서 DeiT-tiny와 LeViT-256 블록 설계를 비교하고 런타임을 나란히 측정한다.
  • 전체 런타임에 대한 LayerNorm, Q/K, V, QK^T, AV, 어텐션 프로젝션, 그리고 MLP의 기여도를 분석한다.
  • 피라미드 구조 제거 및 너비 확장/블록 조정에 대한 제거 실험을 통해 효율 향상을 이해한다.
  • 다른 헤드가 상대 픽셀 위치에 어떻게 주목하는지 해석하기 위해 어텐션 바이어스 맵을 시각화한다.

실험 결과

연구 질문

  • RQ1LeViT가 피라미드/컨볼루션 네트 인스파이어 디자인으로 DeiT에 비해 유사하거나 더 빠른 추론을 달성하는가?
  • RQ2피라미드 구조와 블록 너비가 런타임 구성요소와 전체 효율성에 어떤 영향을 미치는가?
  • RQ3MLP 확장을 작게 하고 어텐션 계산을 줄이는 것이 속도에 미치는 영향은 무엇인가?
  • RQ4어텐션 바이어스 시각화는 LeViT 블록 간 헤드의 특화 및 정보 흐름에 대해 무엇을 보여주는가?

주요 결과

  • LeViT-256은 DeiT-tiny에 근접한 총 런타임을 가지며, 같은 벤치마크 설정에서 LeViT의 총 런타임이 약 2365 μs이고 DeiT-tiny는 2474 μs이다.
  • 블록 너비가 더 넓음에도 불구하고 QK^T에 더 적은 시간을 들이고 후속 AV 곱에 더 많은 시간을 들인다(C=256 vs C=192).
  • MLP 런타임을 확장 계수를 4에서 2로 절반으로 줄여 폭 관련 비용의 일부를 상쇄한다.
  • 어텐션 바이어스 시각화는 일부 헤드가 근접한 픽셀에 집중하는 반면, 다른 헤드는 각 단계에서 균일하거나 방향성 있는 패턴을 보이며 다양한 어텐션 전략을 보여준다.
  • 제거 실험은 피라미드 구조 제거나 블록 확장 확대가 전체 성능과 FLOP 수에 미치는 영향을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.