[논문 리뷰] MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer는 토큰-혼합 및 채널-혼합 블록으로 구성된 전적으로 MLP로 만든 아키텍처가 컨볼루션이나 self-attention 없이도 대규모 사전학습과 규제화가 주어진 경우 경쟁력 있는 이미지 분류 성능을 달성할 수 있음을 보여준다.
Convolutional Neural Networks (CNNs) are the go-to model for computer vision. Recently, attention-based networks, such as the Vision Transformer, have also become popular. In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary. We present MLP-Mixer, an architecture based exclusively on multi-layer perceptrons (MLPs). MLP-Mixer contains two types of layers: one with MLPs applied independently to image patches (i.e. "mixing" the per-location features), and one with MLPs applied across patches (i.e. "mixing" spatial information). When trained on large datasets, or with modern regularization schemes, MLP-Mixer attains competitive scores on image classification benchmarks, with pre-training and inference cost comparable to state-of-the-art models. We hope that these results spark further research beyond the realms of well established CNNs and Transformers.
연구 동기 및 목표
- 비전 분야에서 CNN과 Transformer를 넘어 확장 법칙과 아키텍처를 고무한다.
- 토큰 혼합(공간 커뮤니케이션)과 채널 혼합(특성 커뮤니케이션)을 분리하는 모든-MLP 아키텍처를 제안한다.
- 대규모 사전학습 및 규제화하에 ImageNet 및 전이 태스크에서 정확도 대 연산비용 비교를 시연한다.
제안 방법
- 입력을 S x C 크기의 패치-채널 테이블 X로 표현한다.
- Mixer 레이어당 두 개의 교차 MLP 블록을 사용한다: 열에서 작동하는 토큰-혼합 MLP(행 간 공유)와 행에서 작동하는 채널-혼합 MLP(열 간 공유).
- LayerNorm, GELU 비선형성, 스킵 연결, 표준 심층 신경망에서와 같은 드롭아웃을 적용한다.
- 위치 임베딩은 피하고 토큰-혼합 MLP의 위치 의존성에 의존하며 계층 간 폭이 고정된 등방성 아키텍처를 사용한다.
- 대규모 데이터셋(ImageNet-21k, JFT-300M 등)에서 사전학습하고 정규화(RandAugment, mixup, dropout, stochastic depth) 및 다운스트림 태스크에서 미세조정한다.
실험 결과
연구 질문
- RQ1컨볼루션이나 self-attention 없이 순수하게 MLP로 구성된 아키텍처가 비전 태스크에서 경쟁력 있는 정확도를 달성할 수 있는가?
- RQ2MLP-Mixer의 성능은 모델 크기 및 사전학습 데이터의 양에 따라 어떻게 확장되는가?
- RQ3Mixer를 CNN과 ViT와 비교할 때 정확도, 사전학습 비용 및 테스트 시간 처리량 간의 트레이드오프는 어떤가?
- RQ4모델의 귀납적 편향(위치별 채널 혼합 대 교차 위치 토큰 혼합)이 입력 순열에 대한 견고성과 데이터 효율성에 어떤 영향을 미치는가?
주요 결과
- MLP-Mixer는 대규모 데이터셋(예: 약 100M 이미지)으로 사전학습하고 규제화하면 ImageNet에서 상위-1 정확도 경쟁력을 얻으며, 사전학습 및 추론 비용은 최첨단 모델과 비슷하다.
- 아키텍처의 토큰-혼합 및 채널-혼합 MLP는 각각 공간 위치와 채널 간 정보 교환을 가능하게 하여 다양한 전이 태스크에서 CNN 및 Transformer와 비슷한 성능을 낸다.
- 더 큰 다운스트림 데이터로 Mixer의 성능은 크게 개선되며 일부 CNN/Transformer 벤치마크에 근접하거나 약간 능가할 수 있으며, 연산/처리량 특성은 우호적이다.
- Mixer는 패치 순서에 대한 불변성과 전역 픽셀 순열에서도 강건한 성능을 보이며, 전통적 CNN과는 다른 귀납적 편향을 강조한다.
- 대규모에서 Mixer-H/14는 ImageNet에서 ViT-H/14에 근접한 성능을 보이며 훨씬 더 빠르게 실행되어 정확도-연산 frontier가 우호적으로 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.