[논문 리뷰] Better plain ViT baselines for ImageNet-1k
ImageNet-1k용 간단한 ViT baseline은 비유사 소폭 수정으로 경쟁력 있는 성능을 달성하며, 90 에포크에서 76.5%의 top-1, 300 에포크에서 80.0%의 top-1에 도달하여 유사한 학습 조건에서 ResNet-50과 대등한 성능을 보인다.
It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.
연구 동기 및 목표
- plain ViT가 최소한의 일반적 학습 수정으로 ImageNet-1k에서 강한 성능을 달성할 수 있음을 시연한다.
- 작은 수정들이 baseline ViT 대비 성능 향상에 가장 크게 기여하는 요소를 식별한다.
- 유사한 컴퓨트에서 ResNet-50에 버금가는 간단하고 재현 가능한 baseline을 제공한다.
- 향후 연구를 위한 강력한 기준점으로서 간단한 ViT 설정의 사용을 장려한다.
제안 방법
- 원래 ViT 아키텍처와 표준 데이터 증강을 사용한 ViT-S/16을 사용한다.
- 테스트 세트 튜닝을 피하기 위해 minival에 대해 99% 분할로 ImageNet-1k의 99%에서 훈련한다.
- 고정 2D sin-cos 위치 임베딩과 클래스 토큰 대신 글로벌 평균 풀링(GAP)을 적용한다.
- RandAugment와 Mixup을 보통 수준으로 활용한다(RandAugment 수준 2, 10; Mixup p=0.2).
- 배치 크기를 1024로 설정하고(4096이 아님); 90, 150, 300 에포크로 학습하여 학습 속도와 정확도를 측정한다.
- 추가 정규화, 증류, 아키텍처 변경 없이 학습 파이프라인을 간단하게 유지한다.
실험 결과
연구 질문
- RQ1단순한 ViT-baseline이 최소한의 표준 증강으로 ImageNet-1k에서 어떤 성능을 보이는가?
- RQ2작은 변화들(위치 임베딩, 풀링, 배치 크기, 보통의 증강)이 90, 150, 300 에포크 동안 정확도에 어떻게 영향을 미치는가?
- RQ3간단한 ViT baseline이 비교 가능한 컴퓨트에서 고전적인 ResNet-50 성능과 일치할 수 있는가?
- RQ4최종 top-1 정확도에 대한 각 소수 수정의 상대적 영향은 무엇인가?
주요 결과
| 조건 | 90에포 | 150에포 | 300에포 | |
|---|---|---|---|---|
| 우리의 개선점 | 76.5 | 78.5 | 80.0 | |
| RandAug+MixUp 없이 | 73.6 | 73.7 | 73.7 | |
| Posemb: sincos2d → 학습됨 | 75.0 | 78.0 | 79.6 | |
| 배치 크기: 1024 → 4096 | 74.7 | 77.3 | 78.6 | |
| 글로벌 평균풀링 → [cls] 토큰 | 75.0 | 76.9 | 78.2 | |
| 헤드: MLP → 선형 | 76.7 | 78.6 | 79.8 | |
| Original + RandAug + MixUp | 원래 설정 + RandAug + MixUp | 71.6 | 74.8 | 76.1 |
| 원래 설정 | 66.8 | 67.2 | 67.1 |
- 간단한 ViT 설정이 90 에포크에서 76.5%, 300 에포크에서 80.0%의 top-1에 도달한다.
- 제안된 소수 수정은 원래 ViT baseline 대비 성능을 누적적으로 크게 향상시킨다.
- 글로벌 평균 풀링과 사인곡선 위치 임베딩은 이 설정에서 클래스 토큰 변형보다 더 좋은 성능을 보인다.
- 적당한 수준의 RandAugment와 MixUp은 원래 baseline 대비 유의미한 증가에 기여한다.
- 90-에폭 실행은 TPUv3-8에서 약 6h30 정도 소요되며, 유사한 컴퓨트 시간에서 ResNet-50 수준의 성능에 근접한다.
- 150 에포크 학습은 78.5% top-1; 300 에포크는 80.0% top-1으로 보고된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.