Skip to main content
QUICK REVIEW

[논문 리뷰] How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

Andreas Steiner, Alexander Kolesnikov|arXiv (Cornell University)|2021. 06. 18.
Advanced Neural Network Applications참고 문헌 37인용 수 53
한 줄 요약

본 논문은 데이터, 증강 및 정규화가 비전 트랜스포머(ViT) 성능에 미치는 영향을 대규모의 통제된 연구로 조사하고, 다양한 계산 예산 하에서 전이 학습과 처음부터 학습 간 비교를 평가한다.

ABSTRACT

Vision Transformers (ViT) have been shown to attain highly competitive performance for a wide range of vision applications, such as image classification, object detection and semantic image segmentation. In comparison to convolutional neural networks, the Vision Transformer's weaker inductive bias is generally found to cause an increased reliance on model regularization or data augmentation ("AugReg" for short) when training on smaller training datasets. We conduct a systematic empirical study in order to better understand the interplay between the amount of training data, AugReg, model size and compute budget. As one result of this study we find that the combination of increased compute and AugReg can yield models with the same performance as models trained on an order of magnitude more training data: we train ViT models of various sizes on the public ImageNet-21k dataset which either match or outperform their counterparts trained on the larger, but not publicly available JFT-300M dataset.

연구 동기 및 목표

  • ViTs에서 학습 데이터 크기, 증강 및 정규화가 어떻게 상호 작용하는지 이해한다.
  • 다른 AugReg 및 데이터 형태에서 학습된 ViT 모델의 전이 가능성을 정량화한다.
  • 계산 자원 제약 하에서 사전 학습 데이터, 증강 및 모델 선택에 대한 실용적 권고를 제공한다.
  • 다양한 다운스트림 작업에서 처음부터 학습과 사전 학습된 ViT 모델의 전이 비교를 한다.

제안 방법

  • 제어된 AugReg 설정으로 ImageNet-1k 및 ImageNet-21k에서 여러 ViT 구성(Ti, S, B, L) 및 하이브리드를 사전 학습한다.
  • 정규화로 드롭아웃과 확률적 깊이를 적용한다; 데이터 증강에는 Mixup과 RandAugment를 사용한다; 두 가지 가중치 감소 값을 탐색한다.
  • 코사인 학습률 스케줄과 warmup으로 사전 학습에 Adam을 사용한다; 데이터셋 전반에 걸쳐 전처리 및 평가를 표준화한다.
  • 다양한 데이터셋과 해상도에서 SGD로 다운스트림 미세조정; VTAB-3/VTAB에서 전이 성능을 평가한다(최대 19개 작업).
  • 고정된 계산 예산에서 전이 대비 처음부터 학습을 비교한다; 업스트림 데이터 크기가 전이 성능에 미치는 영향을 분석한다.

실험 결과

연구 질문

  • RQ1ViT에서 데이터 증강과 정규화가 데이터 세트 크기 및 모델 용량과 어떻게 상호 작용하는가?
  • RQ2더 큰 업스트림 데이터(ImageNet-21k)에서의 사전 학습이 다양한 다운스트림 작업에서 전이 성능을 향상시키는가?
  • RQ3실용적인 데이터셋에 대해 사전 학습된 ViT 모델의 전이가 처음부터 학습하는 것보다 비용 효율적이고 더 나은 결과를 내는가?
  • RQ4모델 크기, 패치 크기 및 계산 예산이 ViT에서 AugReg의 가치를 어떻게 좌우하는가?
  • RQ5새로운 작업으로의 전이를 위한 사전 학습 모델 선택에 어떤 지침를 제공할 수 있는가?

주요 결과

  • 정교한 증강 및 정규화는 데이터가 한 차례 더 많게 학습한 모델의 정확도와 일치시킬 수 있다.
  • 사전 학습된 모델의 전이는 일반적으로 비용 효율적이며 많은 실용적 데이터셋에서 더 나은 결과를 얻는다.
  • ImageNet-21k에서의 사전 학습은 VTAB 작업 전반에 걸쳐 전이 성능을 향상시키며, 특히 더 큰 계산 예산에서 두드러지게 향상된다.
  • AugReg는 ImageNet-21k에서 사전 학습할 때 계산량을 증가시키지 않으면 성능을 저하시킬 수 있으며, 이 효과는 작은 모델에서 더 두드러진다.
  • 더 많은 업스트림 데이터는 다양한 다운스트림 작업에 더 잘 전이되는 보다 일반적인 모델을 만들게 된다.
  • 업스트림 검증 정확도로 최적의 업스트림 모델을 선택하는 것이 전이에서 일반적으로 효과적인 전략이며, ImageNet-21k 체크포인트를 사용하는 것이 권장된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.