[논문 리뷰] S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
S2-MLPv2는 채널 확장을 통해 서로 다른 공간 시프트로 나눠진 분할을 각각 활용하고 split-attention으로 융합하여 Spatial-Shift MLP를 향상시키고, 55M 파라미터(추가 데이터 없이)로 ImageNet-1K에서 Top-1 83.6%를 달성합니다.
Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S$^2$-MLP. In this paper, we improve the S$^2$-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$ top-1 accuracy on the ImageNet-1K benchmark using $224 imes 224$ images without self-attention and external training data.
연구 동기 및 목표
- 적은 귀속 편향(inductive bias)으로 MLP 기반 비전 백본 개선을 동기 부여한다.
- 채널 확장과 split-attention을 통해 교차 패치 커뮤니케이션을 강화하기 위해 S2-MLPv2를 도입한다.
- 더 작은 패치로 피라미드 구조를 활용하여 인식 정확도를 높인다.
- 외부 데이터 없이 ImageNet-1K에서 중형 규모 MLP 모델들 중 최첨단 성능을 시연한다.
제안 방법
- MLP를 이용해 S2-MLP 블록의 채널 차원을 c에서 3c로 확장한다.
- 확장된 피처 맵을 세 부분으로 나누고 처음 두 부분에 두 가지 비대칭 공간 이동 연산을 적용한다.
- 세 개의 이동된 부분을 split-attention 메커니즘으로 융합해 출력 피처를 생성한다.
- 더 작은 패치를 가진 두 수준의 피라미드 구조를 도입해 미세한 표현력을 강화한다.
- S2-MLPv2 구성요소와 함께 CM-MLP(channel-mixing MLP)을 두 블록 S2-MLPv2 형식으로 사용한다.
실험 결과
연구 질문
- RQ1채널 확장과 서로 다르게 shifted된 분할에 split-attention을 적용하는 것이 원래의 S2-MLP보다 패치 간 교차 커뮤니케이션을 개선하는가?
- RQ2더 작은 패치를 가진 피라미드 구조를 채택하면 외부 데이터 없이 ImageNet-1K에서 S2-MLPv2의 정확도가 향상되는가?
주요 결과
| 모델 | 피라미드 | 매개변수 (M) | FLOPs (B) | 학습 크기 | 테스트 크기 | Top-1 정확도 (%) |
|---|---|---|---|---|---|---|
| S2-MLPv2-Small/7 | ✓ | 25 | 6.9 | 224 | 224 | 82.0 |
| S2-MLPv2-Medium/7 | ✓ | 55 | 16.3 | 224 | 224 | 83.6 |
- S2-MLPv2-Medium/7은 55M 파라미터와 16.3B FLOPs에서 ImageNet-1K(224x224) 기준 Top-1 83.6%를 달성한다.
- S2-MLPv2-Small/7은 25M 파라미터와 6.9B FLOPs에서 Top-1 82.0%를 달성한다.
- split-attention 융합은 단순 합 풀링(크기가 Small/7에서 Top-1 82.0% vs 79.8% 에 비해)보다 우수하다.
- 더 작은 패치를 갖는 두 수준의 피라미드 구조가 비피라미드인 Small/14 구성과 비교해 성능을 향상시킨다(Small/7: 82.0% vs Small/14: 80.9%).
- CNN과 비전 트랜스포머와 비교할 때 S2-MLPv2-Medium/7은 다수의 트랜스포머 모델보다 파라미터가 적은 상태에서 유사한 정확성을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.