QUICK REVIEW

[논문 리뷰] S$^2$-MLPv2: Improved Spatial-Shift MLP Architecture for Vision

Tan Yu, Li Xu|arXiv (Cornell University)|2021. 08. 02.

Advanced Image and Video Retrieval Techniques참고 문헌 28인용 수 30

한 줄 요약

S2-MLPv2는 채널 확장을 통해 서로 다른 공간 시프트로 나눠진 분할을 각각 활용하고 split-attention으로 융합하여 Spatial-Shift MLP를 향상시키고, 55M 파라미터(추가 데이터 없이)로 ImageNet-1K에서 Top-1 83.6%를 달성합니다.

ABSTRACT

Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S$^2$-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S$^2$-MLP. In this paper, we improve the S$^2$-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S$^2$-MLPv2. Using 55M parameters, our medium-scale model, S$^2$-MLPv2-Medium achieves an $83.6\%$ top-1 accuracy on the ImageNet-1K benchmark using $224 imes 224$ images without self-attention and external training data.

연구 동기 및 목표

적은 귀속 편향(inductive bias)으로 MLP 기반 비전 백본 개선을 동기 부여한다.
채널 확장과 split-attention을 통해 교차 패치 커뮤니케이션을 강화하기 위해 S2-MLPv2를 도입한다.
더 작은 패치로 피라미드 구조를 활용하여 인식 정확도를 높인다.
외부 데이터 없이 ImageNet-1K에서 중형 규모 MLP 모델들 중 최첨단 성능을 시연한다.

제안 방법

MLP를 이용해 S2-MLP 블록의 채널 차원을 c에서 3c로 확장한다.
확장된 피처 맵을 세 부분으로 나누고 처음 두 부분에 두 가지 비대칭 공간 이동 연산을 적용한다.
세 개의 이동된 부분을 split-attention 메커니즘으로 융합해 출력 피처를 생성한다.
더 작은 패치를 가진 두 수준의 피라미드 구조를 도입해 미세한 표현력을 강화한다.
S2-MLPv2 구성요소와 함께 CM-MLP(channel-mixing MLP)을 두 블록 S2-MLPv2 형식으로 사용한다.

실험 결과

연구 질문

RQ1채널 확장과 서로 다르게 shifted된 분할에 split-attention을 적용하는 것이 원래의 S2-MLP보다 패치 간 교차 커뮤니케이션을 개선하는가?
RQ2더 작은 패치를 가진 피라미드 구조를 채택하면 외부 데이터 없이 ImageNet-1K에서 S2-MLPv2의 정확도가 향상되는가?

주요 결과

모델	피라미드	매개변수 (M)	FLOPs (B)	학습 크기	테스트 크기	Top-1 정확도 (%)
S2-MLPv2-Small/7	✓	25	6.9	224	224	82.0
S2-MLPv2-Medium/7	✓	55	16.3	224	224	83.6

S2-MLPv2-Medium/7은 55M 파라미터와 16.3B FLOPs에서 ImageNet-1K(224x224) 기준 Top-1 83.6%를 달성한다.
S2-MLPv2-Small/7은 25M 파라미터와 6.9B FLOPs에서 Top-1 82.0%를 달성한다.
split-attention 융합은 단순 합 풀링(크기가 Small/7에서 Top-1 82.0% vs 79.8% 에 비해)보다 우수하다.
더 작은 패치를 갖는 두 수준의 피라미드 구조가 비피라미드인 Small/14 구성과 비교해 성능을 향상시킨다(Small/7: 82.0% vs Small/14: 80.9%).
CNN과 비전 트랜스포머와 비교할 때 S2-MLPv2-Medium/7은 다수의 트랜스포머 모델보다 파라미터가 적은 상태에서 유사한 정확성을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.