[논문 리뷰] Understanding Why ViT Trains Badly on Small Datasets: An Intuitive Perspective
이 논문은 실증적으로 Vision Transformer(ViT)가 CIFAR-10/100과 같은 작은 데이터셋에서 ResNet-18에 비해 저조한 성능을 보이며, SVHN에서는 비슷하게 동작하고, 표현 분석 계획을 제시한다.
Vision transformer (ViT) is an attention neural network architecture that is shown to be effective for computer vision tasks. However, compared to ResNet-18 with a similar number of parameters, ViT has a significantly lower evaluation accuracy when trained on small datasets. To facilitate studies in related fields, we provide a visual intuition to help understand why it is the case. We first compare the performance of the two models and confirm that ViT has less accuracy than ResNet-18 when trained on small datasets. We then interpret the results by showing attention map visualization for ViT and feature map visualization for ResNet-18. The difference is further analyzed through a representation similarity perspective. We conclude that the representation of ViT trained on small datasets is hugely different from ViT trained on large datasets, which may be the reason why the performance drops a lot on small datasets.
연구 동기 및 목표
- ViT가 작은 데이터셋에서 CNN들(예: ResNet-18)보다 성능이 떨어진다는 것을 보여준다.
- 제어된 설정에서 CIFAR-10, CIFAR-100, SVHN에서 ViT와 ResNet-18의 성능을 비교한다.
- 작은 데이터에서 ViT의 과소적합 현상을 직관적으로 설명하고 시각적/정량적 근거를 제시한다.
- 작은 데이터셋에서 실패 모드를 이해하기 위한 표현 분석의 기반을 마련한다.
제안 방법
- 동일 하이퍼파라미터(lr=1e-4, 배치 100, Adam, 500 에폭)로 CIFAR-10, CIFAR-100, SVHN에서 ViT(6층 인코더, 8 헤드, 64차원 헤드, 64차원 MLP, 드롭아웃 0.1)와 ResNet-18를 학습한다.
- 입력 표준화를 위해 데이터 증강(패딩 4의 임의 자르기, 수평 반전) 사용 및 픽셀 정규화 제외.
- ViT의 파라미터 수(~9.6M)와 맞추기 위해 11.5M 파라미터의 ResNet-18 베이스라인과 비교.
- Top-1 정확도를 보고 훈련/테스트 손실 및 정확도를 wandb 시각화로 추적.
- 주의를 뒷받침하는 주관적 관찰을 주의(attention) 및 순전파 시각화를 통해 제공.

실험 결과
연구 질문
- RQ1왜 ViT가 작은 규모의 데이터셋에서 ResNet과 같은 CNN 대비 성능이 낮은가?
- RQ2데이터셋 크기가 ViT와 CNN 성능에 어떤 영향을 미치며, 이 간격을 직관적으로 설명할 수 있는가?
- RQ3표현의 간단한 질적/정량 분석(예: 주의 패턴, 순전파)이 ViT의 작은 데이터에서의 실패 모드를 드러내는가?
- RQ4CKA를 이용한 표현 분석 등 어떤 경험적 방향이 ViT가 제한된 데이터에서 어려움을 겪는 이유를 밝힐 수 있는가?
주요 결과
| Dataset | ViT accuracy (%) | ResNet18 accuracy (%) |
|---|---|---|
| CIFAR-10 | 81.36 | 92.8 |
| CIFAR-100 | 54.31 | 70.7 |
| SVHN | 95.17 | 95.78 |
- CIFAR-10 및 CIFAR-100에서 ViT는 ResNet-18보다 현저히 낮은 정확도를 보인다(ViT: 81.36% 대 ResNet-18: 92.8% on CIFAR-10; ViT: 54.31% 대 ResNet-18: 70.7% on CIFAR-100).
- SVHN에서 ViT와 ResNet-18은 비슷한 성능을 보이며(ViT: 95.17% 대 ResNet-18: 95.78%), 다만 ViT의 수렴 속도는 느리다.
- 이 결과는 ViT가 작은 데이터셋에서 과소적합하는 경향이 있음을 지지하며, 더 도전적인 클래스 분포 데이터(CIFAR-100)에서 SVHN에 비해 상대적 성능 저하가 더 큰 경향이 있다.
- 저자들은 ViT와 CNN에서 지역적·전역적 표현을 분석하기 위해 CKA를 사용해 데이터셋 크기에 따른 학습 차이를 설명할 계획이다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.