Skip to main content
QUICK REVIEW

[논문 리뷰] How Do Vision Transformers Work?

Namuk Park, Songkuk Kim|arXiv (Cornell University)|2022. 02. 14.
Visual Attention and Saliency Detection인용 수 202
한 줄 요약

본 논문은 Vision Transformers (ViTs)의 다중 헤드 셀프 어텐션이 손실 지형을 평탄화하고 데이터 특화 공간 평활화로 작용하는 방식을 분석하고, CNN 블록과 MSAs를 결합한 AlterNet을 제안하여 대형 데이터 및 소형 데이터 환경 모두에서 성능을 향상시킨다.

ABSTRACT

The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand the nature of MSAs. In particular, we demonstrate the following properties of MSAs and Vision Transformers (ViTs): (1) MSAs improve not only accuracy but also generalization by flattening the loss landscapes. Such improvement is primarily attributable to their data specificity, not long-range dependency. On the other hand, ViTs suffer from non-convex losses. Large datasets and loss landscape smoothing methods alleviate this problem; (2) MSAs and Convs exhibit opposite behaviors. For example, MSAs are low-pass filters, but Convs are high-pass filters. Therefore, MSAs and Convs are complementary; (3) Multi-stage neural networks behave like a series connection of small individual models. In addition, MSAs at the end of a stage play a key role in prediction. Based on these insights, we propose AlterNet, a model in which Conv blocks at the end of a stage are replaced with MSA blocks. AlterNet outperforms CNNs not only in large data regimes but also in small data regimes. The code is available at https://github.com/xxxnell/how-do-vits-work.

연구 동기 및 목표

  • MSAs가 일반화 성능을 왜 향상시키는지와 손실 지형에 어떤 영향을 주는지 조사한다.
  • 주파수 거동과 데이터 특이성 측면에서 MSAs와 Convs를 비교한다.
  • MSAs와 Convs가 하이브리드 아키텍처에서 어떻게 조화될 수 있는지 설명한다.
  • CNN 블록과 MSA 블록을 혼합하는 아키텍처를 위한 설계 가이드를 제안한다.
  • 단계적으로 교대하는 CNN/MSA 패턴이 데이터 규모에 관계없이 CNN보다 더 우수하다는 것을 입증한다.

제안 방법

  • Self-attention 식을 사용하여 특징 맵의 학습 가능한 공간 평활화로서 MSAs를 분석한다.
  • 손실 지형 시각화와 Hessian 스펙트럼을 사용하여 최적화 특성을 평가한다.
  • 특징 맵에 대한 푸리에 분석을 수행하여 MSAs와 Convs 간의 고주파 성분을 비교한다.
  • 지역성 제약이 있는 MSAs와 다단계 아키텍처(PiT, Swin)를 CNN과 대조하는 실험을 수행한다.
  • 구축 규칙에 따라 스테이지 말기의 Convs를 MSAs로 대체하여 AlterNet을 제안한다.
  • CIFAR-100 및 ImageNet에서 AlterNet을 평가하여 CNN과 ViTs와의 비교를 수행한다.

실험 결과

연구 질문

  • RQ1MSAs가 장거리 의존성으로 작용하는가, 아니면 데이터 특이적 공간 평활자로 작용하는가?
  • RQ2MSAs와 Convs가 손실 지형과 최적화 역학에 미치는 영향은 어떻게 다른가?
  • RQ3CNN 블록과 MSA 블록을 교대하는 하이브리드 아키텍처가 데이터 규모에 관계없이 성능을 향상시킬 수 있는가?
  • RQ4다단계 네트워크에서 MSAs의 이점을 극대화하는 설계 규칙은 무엇인가?

주요 결과

  • MSAs가 손실 지형을 평탄화하고 일반화 성능을 향상시키며, 이는 주로 장거리 의존성보다는 데이터 특이성 때문이다.
  • MSAs는 저주파 필터로 작용하고, Convs는 고주파 필터로 작용한다; 서로 보완적이다.
  • 다단계 네트워크는 일련의 작은 모델들처럼 작동하며, 단계 말단의 MSAs가 핵심 예측 역할을 한다.
  • 적절한 수용 영역(receptive field)을 갖춘 지역적 MSAs가 음의 Hessian 고유치를 줄여 최적화를 개선한다.
  • 종단 단계 배치의 컨볼루션과 말기에 더 많은 헤드를 갖춘 MSAs를 결합하면 소형 및 대형 데이터 환경에서 더 나은 성능을 얻는다 (AlterNet).
  • AlterNet은 CIFAR-100에서 CNNs와 ViTs를 능가하고, 소형 데이터 환경에서도 ImageNet까지 확장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.