[논문 리뷰] Efficient Training of Visual Transformers with Small Datasets
이 논문은 작은 데이터셋에서 Visual Transformers(VTs)을 분석하고 VT 훈련을 규제하기 위한 자기지도(Dense) 로컬라이제이션 손실을 도입하여 정확도를 개선하며 특히 데이터가 제한될 때 더 큰 개선을 보인다. 여러 VT 아키텍처와 데이터셋 전반에 걸쳐 일관된 이득을 보이며 때로는 큰 차이를 보여준다.
Visual Transformers (VTs) are emerging as an architectural paradigm alternative to Convolutional networks (CNNs). Differently from CNNs, VTs can capture global relations between image elements and they potentially have a larger representation capacity. However, the lack of the typical convolutional inductive bias makes these models more data-hungry than common CNNs. In fact, some local properties of the visual domain which are embedded in the CNN architectural design, in VTs should be learned from samples. In this paper, we empirically analyse different VTs, comparing their robustness in a small training-set regime, and we show that, despite having a comparable accuracy when trained on ImageNet, their performance on smaller datasets can be largely different. Moreover, we propose a self-supervised task which can extract additional information from images with only a negligible computational overhead. This task encourages the VTs to learn spatial relations within an image and makes the VT training much more robust when training data are scarce. Our task is used jointly with the standard (supervised) training and it does not depend on specific architectural choices, thus it can be easily plugged in the existing VTs. Using an extensive evaluation with different VTs and datasets, we show that our method can improve (sometimes dramatically) the final accuracy of the VTs. Our code is available at: https://github.com/yhlleo/VTs-Drloc.
연구 동기 및 목표
- 두 번째 세대 Visual Transformer의 서로 다른 모델의 강인성을 학습을 처음부터 하거나 제한된 데이터로 수행했을 때 비교한다.
- 추가 주석 없이 VT 훈련을 정규화하기 위한 자기지도 보조 과제를 도입한다.
- 다양한 데이터셋과 학습 규칙에 걸쳐 제안된 방법을 평가하여 이득을 정량화한다.
제안 방법
- 이미지를 VT의 최종 k×k 그리드 임베딩으로 표현하고 상대 임베딩 거리를 예측하기 위해 가벼운 MLP를 연결한다.
- 샘플링된 임베딩 쌍의 정규화 된 2D 그리드 거리를 목표 오프셋으로 회귀시키는 dense relative localization loss를 정의한다.
- 고정 가중치 lambda를 갖는 다중 작업 목표로 L_drloc과 표준 교차 엔트로피를 결합한다.
- 아키텍처 전반에 걸친 안정적인 수렴을 보장하기 위해 로컬라이제이션 작업에 7×7 그리드를 사용한다.
- 기본 VT 아키텍처를 변경하지 않고 최종 토큰 임베딩에 로컬라이제이션 MLP를 적용한다.
실험 결과
연구 질문
- RQ1다른 두 번째 세대 Visual Transformer들이 소형 또는 중형 데이터셋에서 서로 및 ResNets과 비교해 어떤 성능을 보이는가?
- RQ2데이터가 부족하거나 도메인 시프트가 있을 때 자체 지도 보조 과제가 VT 훈련을 향상시킬 수 있는가?
- RQ3제안된 dense relative localization loss가 다양한 VT 아키텍처와 학습 규칙(처음부터 학습 또는 미세 조정) 전반에 걸쳐 넓게 호환되는가?
주요 결과
- VT는 작은 데이터셋에서 ImageNet 결과가 비슷함에도 성능 차이가 크게 나타낸다.
- CvT는 여러 데이터셋에서 Swin이나 T2T보다 소형 데이터 환경에 더 강인한 경향이 있다.
- dense relative localization loss(L_drloc)를 추가하면 아키텍처와 데이터셋에 걸쳐 VT 정확도가 일관되게 향상되며 경우에 따라 큰 폭으로 증가한다(일부 경우 최대 45 포인트까지).
- L_drloc는 특히 처음부터 학습하거나 제한된 에폭에서 상당한 정규화를 제공하며 ResNets에도 약간의 이익을 준다.
- 이 방법은 기존 VT에 쉽게 적용 가능하며 추가 주석에 의존하지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.