[논문 리뷰] Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
Shuffle Transformer를 소개하며, 공간 셔플을 통해 윈도우 기반 비전 트랜스포머에서 윈도우 간 통신을 가능하게 하고, 이웃 윈도우 컨볼루션이 추가되어 토큰 복잡도가 선형인 특징을 가진다. 분류, 분할, 탐지에서 강력한 결과를 달성한다.
Very recently, Window-based Transformers, which computed self-attention within non-overlapping local windows, demonstrated promising results on image classification, semantic segmentation, and object detection. However, less study has been devoted to the cross-window connection which is the key element to improve the representation ability. In this work, we revisit the spatial shuffle as an efficient way to build connections among windows. As a result, we propose a new vision transformer, named Shuffle Transformer, which is highly efficient and easy to implement by modifying two lines of code. Furthermore, the depth-wise convolution is introduced to complement the spatial shuffle for enhancing neighbor-window connections. The proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification, object detection, and semantic segmentation. Code will be released for reproduction.
연구 동기 및 목표
- 창 기반 비전 트랜스포머에서 효율적인 윈도우 간 통신을 동기화한다.
- 비중첩 윈도우를 연결하기 위한 공간 셔플 메커니즘을 제안한다.
- 이웃 윈도우 연결을 깊이 방향 컨볼루션 모듈로 강화한다.
- 정보 흐름을 개선하기 위해 Shuffle Transformer 블록을 정기적인 WMSA와 Shuffle-WMSA를 번갈아 배치한다.
- 이미지 분류, 의미/ 인스턴스 분할, 객체 탐지에서 강력한 성능을 시연한다.]
- method:[
제안 방법
- 윈도우 기반 자기 주의(attention)를 채택하여 입력 크기에 대해 선형 복잡도를 달성한다.
- 멀리 떨어진 윈도우 간 정보를 병합하고 콘텐츠 정렬을 회복하기 위한 공간 셔플과 역 공간 정렬(inverse spatial alignment)을 도입한다.
- WMSA와 MLP 사이에 잔차 연결이 있는 깊이 방향 컨볼루션을 도입하여 이웃 윈도우 상호작용을 강화한다.
- Shuffle-MHSA, 이웃 윈도우 연결 및 MLP를 결합한 Shuffle Transformer Block을 정의하고, 계층 간 일반 WMSA와 Shuffle-WMSA를 교대한다.
- 2D 호환성을 위해 LayerNorm을 BatchNorm으로 대체하고 특정 계층에서 2D 호환성을 위한 1×1 컨볼루션을 사용한다.
- Suffle-T, Shuffle-S, Shuffle-B 변형을 제공하되 Swin 기반 백본과 유사한 FLOPs를 유지한다.
실험 결과
연구 질문
- RQ1공간 셔플이 중첩되지 않는 윈도우 주의에서 효과적인 윈도우 간 통신을 가능하게 하는가?
- RQ2이웃 윈도우 컨볼루션이 로컬 윈도우 간 상호작용을 개선하고 격자(grid) 문제를 완화하는가?
- RQ3Shuffle Transformer 블록이 효율성과 정확도 측면에서 기존 윈도우 기반 트랜스포머와 비교할 때 어떤 차이가 있는가?
- RQ4Shuffle Transformer 백본을 사용할 때 ImageNet, ADE20K, COCO에서의 성능 향상은 얼마나 되는가?
주요 결과
- Shuffle Transformer는 Swin과 유사한 복잡도에서 최신 방법에 근접하거나 종종 정확도에서 이를 능가하는 경쟁력 있는 성능을 달성한다.
- ImageNet-1K에서 Shuffle-T는 Top-1 82.5%에 도달하고 Shuffle-S는 Top-1 83.5%에 도달한다(유사한 GFLOPs를 갖는 Swin 변형과 비슷).
- ADE20K에서 Shuffle-B가 50.5% mIoU(멀티스케일)로 달성하고, Shuffle-T 46.6%와 Shuffle-S 48.4%를 달성하여 유사한 FLOPs에서 Swin 베이스라인보다 높다.
- COCO에서 Mask R-CNN으로 Shuffle-T가 Swin-T보다 AP 메트릭에서 우수하게 나타난다(예: APb 46.8 vs 46.0; APm 42.3 vs 41.6).
- Cascade Mask R-CNN에서 Shuffle-T와 Shuffle-S가 Swin-T 및 Swin-S에 비해 APb, APb50, APm 및 관련 지표에서 경쟁력 있거나 우수한 AP를 보인다.
- 적용 연구에서 긴 거리 공간 셔플과 이웃 윈도우 연결이 일반 윈도우 기반 자기 주의에 비해 일관된 이점이 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.