QUICK REVIEW

[논문 리뷰] Twins: Revisiting the Design of Spatial Attention in Vision Transformers

Xiangxiang Chu, Zhi Tian|arXiv (Cornell University)|2021. 04. 28.

3D Surveying and Cultural Heritage참고 문헌 43인용 수 616

한 줄 요약

논문은 두 가지 비전 트랜스포머 백본인 Twins-PCPVT와 Twins-SVT를 제안하고, 조건부 위치 인코딩과 전역 서브샘플링 및 로컬 그룹화된 어텐션을 결합한 간단하면서도 효과적인 공간 주의 디자인을 도입하여 분류, 분할, 검출에서 강력한 성능과 효율적인 계산을 달성합니다.

ABSTRACT

Very recently, a variety of vision transformer architectures for dense prediction tasks have been proposed and they show that the design of spatial attention is critical to their success in these tasks. In this work, we revisit the design of the spatial attention and demonstrate that a carefully-devised yet simple spatial attention mechanism performs favourably against the state-of-the-art schemes. As a result, we propose two vision transformer architectures, namely, Twins-PCPVT and Twins-SVT. Our proposed architectures are highly-efficient and easy to implement, only involving matrix multiplications that are highly optimized in modern deep learning frameworks. More importantly, the proposed architectures achieve excellent performance on a wide range of visual tasks, including image level classification as well as dense detection and segmentation. The simplicity and strong performance suggest that our proposed architectures may serve as stronger backbones for many vision tasks. Our code is released at https://github.com/Meituan-AutoML/Twins .

연구 동기 및 목표

비전 트랜스포머의 공간 주의 설계를 밀집 예측 작업에 맞추어 재검토하고 개선한다.
간단하고 효율적인 주의 설계가 계산량을 줄이면서도 최첨단 백본과 맞먹거나 능가할 수 있음을 입증한다.
이미지 수준과 픽셀 수준 비전 작업 모두에서 잘 작동하는 두 가지 아키텍처(Twins-PCPVT 및 Twins-SVT)를 제공한다.
위치 인코딩 및 주의 설계 선택이 성능과 배포 효율성에 결정적으로 영향을 미친다는 것을 보여준다.]
method:[

제안 방법

PVT의 절대 위치 인코딩을 조건부 위치 인코딩(CPE)로 대체하고 각 스테이지의 첫 번째 인코더 블록 뒤에 위치 인코딩 생성기(PEG)를 사용하는 방식으로 Twins-PCPVT를 소개한다.
로컬 그룹화된 자기-주의(LSA)와 전역 서브샘플링 주의(GSA)를 결합한 공간적으로 분리 가능한 자기 주의(SSSA)를 제안하여 로컬 정보와 글로벌 정보를 균형 있게 조화시킨 Twins-SVT를 제시한다.
SSSA를 표준 트랜스포머와 유사한 LayerNorm, 어텐션/FFN 블록, 잔차 연결의 시퀀스로 공식화한다.
입력 크기 가변성을 다루고 번역 불변성을 개선하기 위해 PEG/CPE를 위치 인코딩에 사용한다.
ImageNet-1K, ADE20K, COCO( RetinaNet 및 Mask R-CNN 포함)에서 모델을 벤치마크하여 분류, 분할, 검출 성능을 평가한다.
Swin보다 창 이동(윈도우 시프트) 연산을 피하고 효율적인 행렬 곱을 가능하게 함으로써 배포상의 이점을 부각한다.]
research_questions:[

실험 결과

연구 질문

RQ1간단한 공간 주의 설계가 밀집 예측 작업에서 최첨단 백본(Swin, PVT)과 경쟁하거나 능가할 수 있는가?
RQ2조건부 위치 인코딩과 전역 서브샘플링 주의 전략이 비슷한 FLOPs에서 성능을 향상시키는가?
RQ3로컬 및 글로벌 주의를 교차하는 SSAA가 복잡한 시프트 윈도우 메커니즘의 효과적인 배포 친화적 대안인가?
RQ4제안된 Twins 백본이 이미지 분류, 의미/인스턴스 분할, 객체 탐지 데이터셋에서 어떻게 작동하는가?]
RQ5key_findings:[

주요 결과

Twins-PCPVT-S는 PVT-small보다 1.4% 포인트 더 나은 성능을 보이고 FLOPs를 18% 감소시키며 Swin-T와 동등한 수준이다.
Twins-SVT-S는 Swin-T를 약 35% 더 적은 FLOPs로 능가한다.
Twins-SVT-S는 Semantic FPN/ADE20K 설정에서 Swin-T보다 1.7% 높은 mIoU를 달성; Twins-SVT-L은 Swin-B를 mIoU에서 0.7% 포인트 상회한다.
ADE20K에서 Twins-PCPVT-S가 PVT-Small보다 +4.5% mIoU를 보이고 ResNet-50보다 7.6% mIoU를 초과한다; Twins-PCPVT-B/L도 유사하게 PVT counterparts를 능가한다.
Twins-SVT-S 및 Twins-SVT-B는 1x 및 3x 스케줄에서 COCO 객체 탐지 및 인스턴스 분할에서 Swin 변형과 비교 가능하거나 더 나은 성능을 달성한다.
Swin-T의 상대 PE를 CPVT로 교체해도 탐지 성능이 개선되지 않으며, 이는 이익이 Twins-SVT 설계에서 비롯되며 위치 인코딩 그 자체의 이점 때문이 아님을 시사한다.]
table_headers:[]
table_rows:[]}
table_headers:[]
table_rows:[]} } 방법을 수정하고 올바르게 닫히지 않은 부분이 반복되어 있어 수정합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.