Skip to main content
QUICK REVIEW

[논문 리뷰] Stand-Alone Self-Attention in Vision Models

Prajit Ramachandran, Niki Parmar|arXiv (Cornell University)|2019. 06. 13.
Visual Attention and Saliency Detection참고 문헌 63인용 수 221
한 줄 요약

본 논문은 자기-주목(self-attention)이 비전 모델의 독립 원시(primitives)로 기능할 수 있음을 보이며, 합성곱(convolutions)을 대체해 Fully Attentional 네트워크를 구축하고 ImageNet에서 파라미터 수와 FLOPS가 더 적은 상태에서도 합성곱 기반 기준보다 성능이 우수하며, COCO에서 RetinaNet과 견줄 만큼 자원도 덜 소모한다는 점을 보여준다.

ABSTRACT

Convolutions are a fundamental building block of modern computer vision systems. Recent approaches have argued for going beyond convolutions in order to capture long-range dependencies. These efforts focus on augmenting convolutional models with content-based interactions, such as self-attention and non-local means, to achieve gains on a number of vision tasks. The natural question that arises is whether attention can be a stand-alone primitive for vision models instead of serving as just an augmentation on top of convolutions. In developing and testing a pure self-attention vision model, we verify that self-attention can indeed be an effective stand-alone layer. A simple procedure of replacing all instances of spatial convolutions with a form of self-attention applied to ResNet model produces a fully self-attentional model that outperforms the baseline on ImageNet classification with 12% fewer FLOPS and 29% fewer parameters. On COCO object detection, a pure self-attention model matches the mAP of a baseline RetinaNet while having 39% fewer FLOPS and 34% fewer parameters. Detailed ablation studies demonstrate that self-attention is especially impactful when used in later layers. These results establish that stand-alone self-attention is an important addition to the vision practitioner's toolbox.

연구 동기 및 목표

  • 독립적 자기 주의를 통한 컨텐츠 기반 상호작용이 시각 모델에서 공간적 합성곱을 대체할 수 있음을 입증한다.
  • 로컬 자기 주의로 합성곱을 대체하여 완전히 주의 기반의 시각 아키텍처를 구축한다.
  • 독립적 주의가 파라미터 수와 FLOPS가 더 적은 상태로 ImageNet에서 합성곱 기반 기준보다 우수한 성능을 발휘함을 보인다.
  • 경향 분석(Abalation)을 통해 네트워크의 어떤 위치에서 독립적 주의가 가장 큰 이득을 주는지 특징화한다.
  • 비전 트랜스포머의 스템 계층과 상대 위치 인코딩에 대한 실용적인 설계 고려사항을 식별한다.

제안 방법

  • 각 픽셀에 대해 크기가 k×k인 메모리 블록에 주의를 기울이는 로컬 자기 주의 계층을 개발한다.
  • 질의(query), 키(keys), 값(values)의 선형 투영(W_Q, W_K, W_V)을 사용한 다중 헤드 자기 주의를 적용한다.
  • 이동 불변성(수평 위치 간의 상대 위치 임베딩)을 도입하여 2D 상대 위치 임베딩을 이용해 표현력을 개선한다.
  • ResNet 병목(block) 내의 모든 공간 합성곱을 제안된 주의 계층으로 대체하고, 다운샘플링 구조를 유지한다.
  • 합성곱 스템과 주의 스템을 비교 실험하고, 스템의 성능 차이를 줄이기 위해 공간적으로 가변-value 변환을 갖는 스템을 포함한다.
  • ImageNet 분류(ResNet 변형) 및 COCO 물체 탐지(RetinaNet)에서 평가하고, 공간적 범위(k), 위치 인코딩 및 stem 설계에 대한 ablation도 수행한다.

실험 결과

연구 질문

  • RQ1독립적 로컬 자기 주의가 공간적 합성곱을 대체해 완전히 주의 기반의 비전 모델을 형성할 수 있는가?
  • RQ2완전 주의 기반 ResNet이 ImageNet와 COCO에서 합성곱 기반 기준과 비교해 정확도, FLOPS, 파라미터 수 면에서 어떤 성능을 보이는가?
  • RQ3네트워크의 어느 위치에서 독립적 주의가 가장 이득이 되는가(스텀 vs 나중 계층) 및 구조적 선택이 성능에 어떤 영향을 미치는가?
  • RQ4공간적 범위(k)와 위치 인코딩 유형이 성능에 미치는 영향은 무엇인가?
  • RQ5스템 수정(공간적으로 인식된 값)이 일반적인 주의 스템에 비해 주의 기반 네트워크의 성능을 향상시키는가?

주요 결과

  • 합성곱을 로컬 자기 주의로 대체해 완전 주의 모델을 구성하면, 합성곱 기준보다 FLOPS는 12% 더 적고 파라미터 수는 29% 더 적은 상태에서 ImageNet Top-1 정확도가 더 높다.
  • COCO 탐지에서 완전 주의 백본은 RetinaNet의 mAP와 일치하면서 FLOPS는 39% 더 적고 파라미터는 34% 더 적다.
  • Ablation에서 주의 계층을 네트워크의 후반 스테이지에 배치할 때 더 큰 이득이 나타나며, 이는 합성곱이 저수준 특징을 더 잘 포착하고 주의가 전역 정보를 통합한다는 것을 시사한다.
  • 상대 2D 위치 인코딩은 절대 위치 인코딩이나 무위치 인코딩보다 성능을 크게 향상시키며(실험 옵션 중 상대 인코딩이 최상).
  • 스템의 공간적으로 인식된 값 변환은 일반적인 독립 주의 스템과 값에 공간 합성곱을 사용하는 스템 모두를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.