QUICK REVIEW

[논문 리뷰] Better plain ViT baselines for ImageNet-1k

Lucas Beyer, Xiaohua Zhai|arXiv (Cornell University)|2022. 05. 03.

Advanced Neural Network Applications인용 수 49

한 줄 요약

ImageNet-1k용 간단한 ViT baseline은 비유사 소폭 수정으로 경쟁력 있는 성능을 달성하며, 90 에포크에서 76.5%의 top-1, 300 에포크에서 80.0%의 top-1에 도달하여 유사한 학습 조건에서 ResNet-50과 대등한 성능을 보인다.

ABSTRACT

It is commonly accepted that the Vision Transformer model requires sophisticated regularization techniques to excel at ImageNet-1k scale data. Surprisingly, we find this is not the case and standard data augmentation is sufficient. This note presents a few minor modifications to the original Vision Transformer (ViT) vanilla training setting that dramatically improve the performance of plain ViT models. Notably, 90 epochs of training surpass 76% top-1 accuracy in under seven hours on a TPUv3-8, similar to the classic ResNet50 baseline, and 300 epochs of training reach 80% in less than one day.

연구 동기 및 목표

plain ViT가 최소한의 일반적 학습 수정으로 ImageNet-1k에서 강한 성능을 달성할 수 있음을 시연한다.
작은 수정들이 baseline ViT 대비 성능 향상에 가장 크게 기여하는 요소를 식별한다.
유사한 컴퓨트에서 ResNet-50에 버금가는 간단하고 재현 가능한 baseline을 제공한다.
향후 연구를 위한 강력한 기준점으로서 간단한 ViT 설정의 사용을 장려한다.

제안 방법

원래 ViT 아키텍처와 표준 데이터 증강을 사용한 ViT-S/16을 사용한다.
테스트 세트 튜닝을 피하기 위해 minival에 대해 99% 분할로 ImageNet-1k의 99%에서 훈련한다.
고정 2D sin-cos 위치 임베딩과 클래스 토큰 대신 글로벌 평균 풀링(GAP)을 적용한다.
RandAugment와 Mixup을 보통 수준으로 활용한다(RandAugment 수준 2, 10; Mixup p=0.2).
배치 크기를 1024로 설정하고(4096이 아님); 90, 150, 300 에포크로 학습하여 학습 속도와 정확도를 측정한다.
추가 정규화, 증류, 아키텍처 변경 없이 학습 파이프라인을 간단하게 유지한다.

실험 결과

연구 질문

RQ1단순한 ViT-baseline이 최소한의 표준 증강으로 ImageNet-1k에서 어떤 성능을 보이는가?
RQ2작은 변화들(위치 임베딩, 풀링, 배치 크기, 보통의 증강)이 90, 150, 300 에포크 동안 정확도에 어떻게 영향을 미치는가?
RQ3간단한 ViT baseline이 비교 가능한 컴퓨트에서 고전적인 ResNet-50 성능과 일치할 수 있는가?
RQ4최종 top-1 정확도에 대한 각 소수 수정의 상대적 영향은 무엇인가?

주요 결과

조건	90에포	150에포	300에포
우리의 개선점	76.5	78.5	80.0
RandAug+MixUp 없이	73.6	73.7	73.7
Posemb: sincos2d → 학습됨	75.0	78.0	79.6
배치 크기: 1024 → 4096	74.7	77.3	78.6
글로벌 평균풀링 → [cls] 토큰	75.0	76.9	78.2
헤드: MLP → 선형	76.7	78.6	79.8
Original + RandAug + MixUp	원래 설정 + RandAug + MixUp	71.6	74.8	76.1
원래 설정	66.8	67.2	67.1

간단한 ViT 설정이 90 에포크에서 76.5%, 300 에포크에서 80.0%의 top-1에 도달한다.
제안된 소수 수정은 원래 ViT baseline 대비 성능을 누적적으로 크게 향상시킨다.
글로벌 평균 풀링과 사인곡선 위치 임베딩은 이 설정에서 클래스 토큰 변형보다 더 좋은 성능을 보인다.
적당한 수준의 RandAugment와 MixUp은 원래 baseline 대비 유의미한 증가에 기여한다.
90-에폭 실행은 TPUv3-8에서 약 6h30 정도 소요되며, 유사한 컴퓨트 시간에서 ResNet-50 수준의 성능에 근접한다.
150 에포크 학습은 78.5% top-1; 300 에포크는 80.0% top-1으로 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.