[논문 리뷰] SPFormer: Enhancing Vision Transformer with Superpixel Representation
SPFormer는 Superpixel Cross Attention을 통해 학습 가능한 슈퍼픽셀 표현을 Vision Transformer와 통합하여 정확도, 효율성 및 설명가능성을 향상시키며, ImageNet에서의 강력한 이득과 더 나은 분할 강건성을 포함합니다.
In this work, we introduce SPFormer, a novel Vision Transformer enhanced by superpixel representation. Addressing the limitations of traditional Vision Transformers' fixed-size, non-adaptive patch partitioning, SPFormer employs superpixels that adapt to the image's content. This approach divides the image into irregular, semantically coherent regions, effectively capturing intricate details and applicable at both initial and intermediate feature levels. SPFormer, trainable end-to-end, exhibits superior performance across various benchmarks. Notably, it exhibits significant improvements on the challenging ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S respectively. A standout feature of SPFormer is its inherent explainability. The superpixel structure offers a window into the model's internal processes, providing valuable insights that enhance the model's interpretability. This level of clarity significantly improves SPFormer's robustness, particularly in challenging scenarios such as image rotations and occlusions, demonstrating its adaptability and resilience.
연구 동기 및 목표
- 현지 세부 정보를 보존하고 효율적인 글로벌 모델링을 가능하게 하기 위해 적응형 슈퍼픽셀을 활용해 픽셀/패치 표현 간 다리를 놓는 것을 동기화한다.
- 교차 주의를 통해 초픽셀 표현을 ViT와 통합하는 학습 가능한 엔드-투-엔드 SPFormer 아키텍처를 개발한다.
- 초픽셀 기반 표현이 ImageNet에서 정확도를 향상시키고 해석 가능성과 회전 및 가림에 대한 강건성을 향상시킴을 보여준다.
- 다양성과 효율성을 입증하기 위해 이미지 분류 및 의미론적 분할 작업에서 SPFormer를 평가한다.
제안 방법
- 픽셀을 이웃하는 슈퍼픽셀 간의 연결 행렬 A와 함께 픽셀을 의미적으로 일관된 영역으로 집합화하는 슈퍼픽셀 표현을 도입한다.
- Pixel-to-Superpixel(P2S) 및 Superpixel-to-Pixel(S2P)의 두 교차 주의 방향을 갖는 Superpixel Cross Attention(SCA)을 제안하고, t회 반복 동안 S와 A를 반복적으로 정교화한다.
- 픽셀 및 슈퍼픽셀 특징에 공간 정보를 주입하기 위해 Convolution Position Embedding(CPE)을 도입한다.
- 고해상도 밀집 픽셀 분기를 효율성을 위해 저해상도 슈퍼픽셀 분기가 보완하는 이중 분기 SPFormer 아키텍처를 채택한다.
- 다중 헤드 SCA를 사용해 여러 개의 의미적으로 풍부한 슈퍼픽셀 표현을 생성하고, 이어 MHSA로 글로벌 컨텍스트를 얻은 뒤, 컨텍스트를 전파하기 위해 1x1 합성곱으로 각 스테이지에서 점진적으로 정교화한다.
실험 결과
연구 질문
- RQ1교차 주의와 결합된 적응 가능한 학습 가능한 슈퍼픽셀 표현이 고정 패치 기반 ViT를 ImageNet 및 분할 작업에서 능가할 수 있는가?
- RQ2SCA 모듈이 슈퍼픽셀과 의미 경계 간 정렬을 개선하여 보이지 않는 데이터에 대한 일반화 성능을 향상시키는가?
- RQ3전통적인 ViT와 비교했을 때 SPFormer의 효율성 및 회전과 가림에 대한 강건성은 어떠한가?
- RQ4고해상도 픽셀 분기가 세부 정보를 얼마나 보존하는지와 슈퍼픽셀 분기가 전역 컨텍스트를 가능하게 하는 정도는 어느 정도인가?
주요 결과
| 모델 | #매개변수 | #FLOPs | Top-1 |
|---|---|---|---|
| SPFormer-S/56 | 22M | 0.5G | 72.3 |
| DeiT-T | 5M | 1.3G | 72.2 |
| SPFormer-T | 5M | 1.3G | 73.6 |
| DeiT-S/32 | 22M | 1.1G | 73.3 |
| SPFormer-S/32 | 22M | 1.2G | 76.4 |
| SPFormer-S/32 † | 22M | 1.3G | 77.9 |
| DeiT-S | 22M | 4.6G | 79.9 |
| SPFormer-S | 22M | 5.2G | 81.0 |
| SPFormer-S † | 22M | 5.3G | 81.7 |
| DeiT-B | 87M | 17.5G | 81.8 |
| SPFormer-B | 87M | 19.2G | 82.4 |
| SPFormer-B † | 87M | 19.2G | 82.7 |
- SPFormer는 DeiT 기반선 대비 ImageNet 이득을 창출하며, 예를 들어 SPFormer-S/32 †는 22M 매개변수와 1.3G FLOPs로 77.9% Top-1을 달성하여 DeiT-S/32 및 DeiT-T를 능가한다.
- ImageNet에서 SPFormer-S/56은 22M 매개변수와 0.5G FLOPs로 72.3% Top-1에 도달하며, SPFormer-S/32 및 SPFormer-S/32 †는 각각 76.4%와 77.9% Top-1을 달성한다.
- SPFormer-B 및 SPFormer-S 변형은 최대 82.7%의 Top-1 점수를 87M 매개변수와 19.2G FLOPs로 달성해 DeiT-B(81.8%) 및 DeiT-S(79.9%)를 능가한다.
- 학습된 슈퍼픽셀 연결은 분할 데이터셋 훈련 없이도 이미지 경계와 정렬되며, COCO 및 부분/객체 분할 작업으로의 제로샷 전이를 가능하게 한다.
- 배제 연구는 다중 SCA 반복, 다중 헤드 어텐션, 그리고 SCA 계층의 전략적 배치가 성능 향상에 결정적임을 보여준다.
- SPFormer는 ADE20K 및 Pascal Context에서 분할 mIoU를 향상시키며, 특히 ImageNet에서 사전학습된 모델로 각각 최대 +4.2% 및 +2.8%의 향상을 보이고, 학습 from scratch에서도 (+3.0% 및 +3.1%)로 이점을 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.