Skip to main content
QUICK REVIEW

[논문 리뷰] Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

Qibin Hou, Zihang Jiang|arXiv (Cornell University)|2021. 06. 23.
Advanced Neural Network Applications참고 문헌 45인용 수 25
한 줄 요약

Vision Permutator는 높이와 너비 정보를 분리 인코딩하는 3-branch Permute-MLP를 통해 공간 정보를 처리하며, MLP 유사 아키텍처로 ImageNet에서 경쟁력 있는 결과를 달성하고 파라미터는 2500만~8800만 개입니다.

ABSTRACT

In this paper, we present Vision Permutator, a conceptually simple and data efficient MLP-like architecture for visual recognition. By realizing the importance of the positional information carried by 2D feature representations, unlike recent MLP-like models that encode the spatial information along the flattened spatial dimensions, Vision Permutator separately encodes the feature representations along the height and width dimensions with linear projections. This allows Vision Permutator to capture long-range dependencies along one spatial direction and meanwhile preserve precise positional information along the other direction. The resulting position-sensitive outputs are then aggregated in a mutually complementing manner to form expressive representations of the objects of interest. We show that our Vision Permutators are formidable competitors to convolutional neural networks (CNNs) and vision transformers. Without the dependence on spatial convolutions or attention mechanisms, Vision Permutator achieves 81.5% top-1 accuracy on ImageNet without extra large-scale training data (e.g., ImageNet-22k) using only 25M learnable parameters, which is much better than most CNNs and vision transformers under the same model size constraint. When scaling up to 88M, it attains 83.2% top-1 accuracy. We hope this work could encourage research on rethinking the way of encoding spatial information and facilitate the development of MLP-like models. Code is available at https://github.com/Andrew-Qibin/VisionPermutator.

연구 동기 및 목표

  • 데이터 효율적인 ImageNet-1k 데이터에서 잘 작동하는 MLP 유사 모델의 동기를 제시한다.
  • 2D 위치 정보를 보존하는 공간적으로 인지된 MLP 유사 계층을 제안한다.
  • 높이-너비 인코딩을 분리하면 플래튼된 토큰 MLP보다 성능이 향상됨을 보여준다.
  • 비슷한 모델 규모에서 CNN 및 비전 트랜스포머 대비 경쟁력 있는 결과를 보여준다.

제안 방법

  • 입력 이미지를 패치로 분할하고 공유 선형 프로젝션으로 토큰 임베딩에 매핑한다.
  • Permute-MLP(높이, 너비, 채널 분기)와 채널-MLP를 결합한 일련의 Permutator 블록을 사용하여 특징을 혼합한다.
  • Permute-MLP는 높이-채널 및 너비-채널 순열과 선형 프로젝션으로 높이와 너드를 각각 인코딩한다.
  • 브랜치 출력을 덧셈과 최종 FC 계층으로 융합하여 특징 융합을 수행한다.
  • split-attention을 통해 가중치를 재할당하는 Weighted Permute-MLP를 선택적으로 적용한다.
  • ImageNet-1k 외의 추가 데이터 없이 표준 데이터 증강과 AdamW로 학습한다.

실험 결과

연구 질문

  • RQ1높이와 너비 공간 정보를 별도로 인코딩하는 것이 MLP 유사 네트워크에서 평탄화된 공간 표현보다 성능을 향상시키는가?
  • RQ2데이터 효율적 학습 하에서 어떤 규모(Small/Medium/Large)와 패치 구성이 ImageNet-1k 정확도에 최적의 성능을 내는가?
  • RQ3데이터 증강 전략이 Vision Permutator의 성능에 어떤 영향을 미치는가?
  • RQ4Weighted Permute-MLP가 단순 덧셈에 비해 이득을 주는가?

주요 결과

모델매개변수(M)처리량(img/s)학습 크기테스트 크기상위-1 정확도 (%)
ViP-Small/143078922422480.5
ViP-Small/72571922422481.5
ViP-Medium/75541822422482.7
ViP-Large/78829822422483.2
  • ViP-Small/7은 2,500만 파라미터에서 추가 데이터 없이도 81.5%의 top-1 정확도를 달성한다.
  • ViP-Medium/7은 5,500만 파라미터에서 82.7%의 top-1 정확도를 달성한다.
  • ViP-Large/7은 8,800만 파라미터에서 83.2%의 top-1 정확도를 달성한다.
  • 데이터 증강(Random Aug, CutOut, MixUp, CutMix)은 정확도를 크게 향상시키며, CutMix는 75.3%에서 80.6%로 향상된다.
  • 높이와 너비 정보를 모두 인코딩하는 것이 결정적이다; 두 정보를 제거하면 정확도가 약 72~73%로 떨어지며, Weighted Permute-MLP가 80.6%까지 개선된다.
  • 모델을 확장해 더 많은 레이어와 더 큰 숨김 차원을 사용하면 성능이 일관되게 향상된다(ViP-Small/7에서 ViP-Large/7로: 81.5%→83.2%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.