QUICK REVIEW

[논문 리뷰] Stand-Alone Self-Attention in Vision Models

Prajit Ramachandran, Niki Parmar|arXiv (Cornell University)|2019. 06. 13.

Visual Attention and Saliency Detection참고 문헌 63인용 수 221

한 줄 요약

본 논문은 자기-주목(self-attention)이 비전 모델의 독립 원시(primitives)로 기능할 수 있음을 보이며, 합성곱(convolutions)을 대체해 Fully Attentional 네트워크를 구축하고 ImageNet에서 파라미터 수와 FLOPS가 더 적은 상태에서도 합성곱 기반 기준보다 성능이 우수하며, COCO에서 RetinaNet과 견줄 만큼 자원도 덜 소모한다는 점을 보여준다.

ABSTRACT

Convolutions are a fundamental building block of modern computer vision systems. Recent approaches have argued for going beyond convolutions in order to capture long-range dependencies. These efforts focus on augmenting convolutional models with content-based interactions, such as self-attention and non-local means, to achieve gains on a number of vision tasks. The natural question that arises is whether attention can be a stand-alone primitive for vision models instead of serving as just an augmentation on top of convolutions. In developing and testing a pure self-attention vision model, we verify that self-attention can indeed be an effective stand-alone layer. A simple procedure of replacing all instances of spatial convolutions with a form of self-attention applied to ResNet model produces a fully self-attentional model that outperforms the baseline on ImageNet classification with 12% fewer FLOPS and 29% fewer parameters. On COCO object detection, a pure self-attention model matches the mAP of a baseline RetinaNet while having 39% fewer FLOPS and 34% fewer parameters. Detailed ablation studies demonstrate that self-attention is especially impactful when used in later layers. These results establish that stand-alone self-attention is an important addition to the vision practitioner's toolbox.

연구 동기 및 목표

독립적 자기 주의를 통한 컨텐츠 기반 상호작용이 시각 모델에서 공간적 합성곱을 대체할 수 있음을 입증한다.
로컬 자기 주의로 합성곱을 대체하여 완전히 주의 기반의 시각 아키텍처를 구축한다.
독립적 주의가 파라미터 수와 FLOPS가 더 적은 상태로 ImageNet에서 합성곱 기반 기준보다 우수한 성능을 발휘함을 보인다.
경향 분석(Abalation)을 통해 네트워크의 어떤 위치에서 독립적 주의가 가장 큰 이득을 주는지 특징화한다.
비전 트랜스포머의 스템 계층과 상대 위치 인코딩에 대한 실용적인 설계 고려사항을 식별한다.

제안 방법

각 픽셀에 대해 크기가 k×k인 메모리 블록에 주의를 기울이는 로컬 자기 주의 계층을 개발한다.
질의(query), 키(keys), 값(values)의 선형 투영(W_Q, W_K, W_V)을 사용한 다중 헤드 자기 주의를 적용한다.
이동 불변성(수평 위치 간의 상대 위치 임베딩)을 도입하여 2D 상대 위치 임베딩을 이용해 표현력을 개선한다.
ResNet 병목(block) 내의 모든 공간 합성곱을 제안된 주의 계층으로 대체하고, 다운샘플링 구조를 유지한다.
합성곱 스템과 주의 스템을 비교 실험하고, 스템의 성능 차이를 줄이기 위해 공간적으로 가변-value 변환을 갖는 스템을 포함한다.
ImageNet 분류(ResNet 변형) 및 COCO 물체 탐지(RetinaNet)에서 평가하고, 공간적 범위(k), 위치 인코딩 및 stem 설계에 대한 ablation도 수행한다.

실험 결과

연구 질문

RQ1독립적 로컬 자기 주의가 공간적 합성곱을 대체해 완전히 주의 기반의 비전 모델을 형성할 수 있는가?
RQ2완전 주의 기반 ResNet이 ImageNet와 COCO에서 합성곱 기반 기준과 비교해 정확도, FLOPS, 파라미터 수 면에서 어떤 성능을 보이는가?
RQ3네트워크의 어느 위치에서 독립적 주의가 가장 이득이 되는가(스텀 vs 나중 계층) 및 구조적 선택이 성능에 어떤 영향을 미치는가?
RQ4공간적 범위(k)와 위치 인코딩 유형이 성능에 미치는 영향은 무엇인가?
RQ5스템 수정(공간적으로 인식된 값)이 일반적인 주의 스템에 비해 주의 기반 네트워크의 성능을 향상시키는가?

주요 결과

합성곱을 로컬 자기 주의로 대체해 완전 주의 모델을 구성하면, 합성곱 기준보다 FLOPS는 12% 더 적고 파라미터 수는 29% 더 적은 상태에서 ImageNet Top-1 정확도가 더 높다.
COCO 탐지에서 완전 주의 백본은 RetinaNet의 mAP와 일치하면서 FLOPS는 39% 더 적고 파라미터는 34% 더 적다.
Ablation에서 주의 계층을 네트워크의 후반 스테이지에 배치할 때 더 큰 이득이 나타나며, 이는 합성곱이 저수준 특징을 더 잘 포착하고 주의가 전역 정보를 통합한다는 것을 시사한다.
상대 2D 위치 인코딩은 절대 위치 인코딩이나 무위치 인코딩보다 성능을 크게 향상시키며(실험 옵션 중 상대 인코딩이 최상).
스템의 공간적으로 인식된 값 변환은 일반적인 독립 주의 스템과 값에 공간 합성곱을 사용하는 스템 모두를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.