[논문 리뷰] Scaling MLPs: A Tale of Inductive Bias
본 논문은 MLP 기반 비전 모델의 확장이 성능에 미치는 영향을 조사하며, 귀납 편향의 부재를 데이터와 컴퓨트로 보상할 수 있음을 보여주고, 스케일링하에서 MLP가 현대 아키텍처와 유사하게 작동하되 증강 및 SGD 편향 효과가 다름을 보여준다.
In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.
연구 동기 및 목표
- 비전 특화 귀납 편향 없이 확장했을 때 MLP가 비전 작업에서 어떻게 수행되는지 평가한다.
- 대규모 사전 학습 및 전이 학습에서 MLP를 CNN/트랜스포머와 비교한다.
- 데이터 증강과 SGD 암시적 편향이 MLP 성능에 미치는 영향을 정량화한다.
- MLP의 스케일링 법칙과 파라미터와 데이터 간의 최적 컴퓨트 할당을 특성화한다.
제안 방법
- 잔차/병목 구성의 바닐라 및 반전 병목 MLP 변형을 연구한다.
- 데이터 증강과 LION 옵티마이저를 사용하여 CIFAR-10/100, TinyImageNet, STL10 및 ImageNet 변종에서 처음부터 학습한다.
- ImageNet21k에서 반전 병목 MLP를 사전 학습하고 파인튜닝 및 테스트 시 증강을 통해 CIFAR100, CIFAR10, ImageNet-ReaL로의 전이를 평가한다.
- 컴퓨트, 데이터 세트 크기 및 파라미터 수를 변화시켜 스케일링 법칙을 분석하고 다운스트림 성능에 대한 멱법칙 관계를 적합한다.
- 스케일 전반에 걸친 사전 학습 및 다운스트림 작업에서 배치 크기의 역할을 평가한다.
실험 결과
연구 질문
- RQ1전통적인 귀납 편향 없이 확장했을 때 MLP가 경쟁력 있는 비전 성능에 도달할 수 있는가?
- RQ2데이터 증강, SGD 편향, 배치 크기가 확장된 MLP 학습 및 일반화에 어떻게 영향을 미치는가?
- RQ3MLP가 CNN/트랜스포머와 유사한 성능 스케일링 법칙을 보이나, 어디서 벗어나나?
- RQ4MLP에서 모델 크기와 데이터세트 크기 간의 최적 컴퓨트 할당은 무엇인가?
- RQ5대규모 MLP가 학습한 특징의 다운스트림 비전 작업으로의 전이성은 어느 정도인가?
주요 결과
- MLPs improve with scale, achieving notable downstream accuracy (e.g., ~95% on CIFAR-10, ~82% on CIFAR-100, ~58% on ImageNet-ReaL) under large compute and data.
- Regularization via data augmentation is crucial for MLPs and can dramatically boost performance, especially at large scales.
- Larger SGD batch sizes unexpectedly improve generalization for MLPs, contrasting with CNNs/Transformers.
- MLPs mirror the scaling behavior of modern models with power-law relations between compute and error, though optimal compute allocation favors more data (N) than parameters (P).
- Pre-training on ImageNet21k followed by transfer learning shows strong transferable features for MLPs, with test-time augmentations and ReaL labels enhancing performance (notably on CIFAR datasets).
- Optimal compute allocation for MLPs scales as P* ∝ C^0.35 and N* ∝ C^0.65, indicating a heavier emphasis on data than parameters at fixed compute.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.