Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Spatial Dimensions of Vision Transformers

Byeongho Heo, Sangdoo Yun|arXiv (Cornell University)|2021. 03. 30.
Advanced Neural Network Applications참고 문헌 39인용 수 67
한 줄 요약

PiT는 ViT에 풀링 기반 풀링 계층을 도입하여 Vision Transformer에 ResNet 스타일의 공간 차원 축소를 구현하고, ImageNet, 탐지 및 강인성 벤치마크에서 ViT보다 더 나은 정확도와 일반화성을 얻는다.

ABSTRACT

Vision Transformer (ViT) extends the application range of transformers from language processing to computer vision tasks as being an alternative architecture against the existing convolutional neural networks (CNN). Since the transformer-based architecture has been innovative for computer vision modeling, the design convention towards an effective architecture has been less studied yet. From the successful design principles of CNN, we investigate the role of spatial dimension conversion and its effectiveness on transformer-based architecture. We particularly attend to the dimension reduction principle of CNNs; as the depth increases, a conventional CNN increases channel dimension and decreases spatial dimensions. We empirically show that such a spatial dimension reduction is beneficial to a transformer architecture as well, and propose a novel Pooling-based Vision Transformer (PiT) upon the original ViT model. We show that PiT achieves the improved model capability and generalization performance against ViT. Throughout the extensive experiments, we further show PiT outperforms the baseline on several tasks such as image classification, object detection, and robustness evaluation. Source codes and ImageNet models are available at https://github.com/naver-ai/pit

연구 동기 및 목표

  • CNN 스타일의 공간 차원 축소(다운샘플링)가 트랜스포머 기반 비전 모델에 이로운지 조사한다.
  • ViT를 풀링 기반 메커니즘으로 확장하여 토큰 기반 처리를 희생하지 않으면서 공간 다운샘플링을 가능하게 한다.
  • 이미지 분류, 객체 탐지 및 강인성 벤치마크 전반에서 PiT를 평가하여 일반화 및 효율성 향상을 검토한다.

제안 방법

  • ViT를 위한 풀링 계층을 설계하여 2D 토큰 맵을 3D 텐서로 재구성하고, 깊이별 합성 기반 공간 축소 및 채널 확장을 적용한 뒤 다시 2D 토큰으로 재구성한다.
  • PiT에 두 개의 풀링 계층을 도입하여 세 가지 공간 규모를 만들고, 다중 헤드 어텐션 헤드를 증가시켜 채널 확장을 구현한다.
  • ViT( tiny, small, base )에 해당하는 규모로 PiT 변종을 구성하고 FLOPs/매개변수를 ViT와 경쟁력이 있도록 조정하되 지연을 줄인다.
  • ImageNet-1k에서 기본(바닐라), CutMix, DeiT 및 Distillation 훈련 체제하에서 PiT를 ViT와 비교한다.
  • 엔트로피 및 공간 거리를 통해 주의 패턴을 분석하여 PiT가 계층 간 토큰 상호작용을 어떻게 재구성하는지 이해한다.
  • Deformable DETR의 백본으로서 COCO에서 PiT를 평가하고 ImageNet 벤치마크에서 강인성을 평가한다.
Figure 1 : Schematic illustration of dimension configurations of networks. We visualize ResNet50 [ 13 ] , Vision Transformer (ViT) [ 9 ] , and our Pooling-based Vision Transformer (PiT); (a) ResNet50 gradually downsamples the features from the input to the output; (b) ViT does not change the spatial
Figure 1 : Schematic illustration of dimension configurations of networks. We visualize ResNet50 [ 13 ] , Vision Transformer (ViT) [ 9 ] , and our Pooling-based Vision Transformer (PiT); (a) ResNet50 gradually downsamples the features from the input to the output; (b) ViT does not change the spatial

실험 결과

연구 질문

  • RQ1CNN 스타일의 공간 차원 축소가 비전 트랜스포머의 모델 능력과 일반화에 영향을 미치는가?
  • RQ2풀링 기반 ViT(PiT)가 이미지 분류, 객체 탐지 및 강인성 벤치마크에서 ViT를 능가하는가?
  • RQ3PiT의 풀링이 ViT에 비해 주의 패턴에 어떤 영향을 미치며, 이는 성능 및 강인성과 어떤 관련이 있는가?
  • RQ4다양한 스케일에서 PiT가 정확도, 처리량, 지연 면에서 합리적인 경쟁력을 가지는가?
  • RQ5장시간 학습, 고해상도 미세 조정 등 확장된 학습 체제 하에서 PiT의 동작은 어떤가?

주요 결과

  • PiT는 여러 ImageNet 학습 체계에서 일반적으로 ViT를 능가하며, 더 낮은 FLOPs로 더 높은 정확도와 종종 더 나은 처리량을 달성한다.
  • ImageNet에서 PiT-B는 유사한 설정에서 ViT-B 83.4%에 비해 84.0%를 달성하며; PiT-S도 여러 구성에서 ViT-S에 비해 이득을 보인다.
  • PiT는 모델 크기가 커질수록 성능이 향상되어 대형 규모에서 관찰되는 ViT의 일반화 격차와 표준 훈련 기술로 완화된다.
  • Deformable DETR(코코)에서 PiT를 백본으로 사용할 때 ViT-S(39.4 대 36.9)보다 높은 AP를 보이며 지연은 경쟁력 있다.
  • 강인성 벤치마크에서 PiT-S는 표준, Occ, IN-A, BGC 및 FGSM 테스트 전반에 걸쳐 ViT-S에 비해 일관된 개선을 보인다.
  • 전반적으로 PiT는 ViT에 풀링 기반 공간 축소를 도입하는 것이 성능과 강인성을 향상시키고 효율성 측면에서도 우수한 타협을 가능하게 함을 보여준다.
(a) Model capability
(a) Model capability

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.