[논문 리뷰] Vision Transformer for Small-Size Datasets
이 논문은 Shifted Patch Tokenization (SPT)와 Locality Self-Attention (LSA)를 도입하여 비전 트랜스포머에 더 강한 지역성 귀납 바이어스를 제공하고, 작은 데이터셋에서 처음부터 학습 가능하게 하며 Tiny-ImageNet 및 기타 소형 벤치마크에서 성능을 향상시킵니다.
Recently, the Vision Transformer (ViT), which applied the transformer structure to the image classification task, has outperformed convolutional neural networks. However, the high performance of the ViT results from pre-training using a large-size dataset such as JFT-300M, and its dependence on a large dataset is interpreted as due to low locality inductive bias. This paper proposes Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA), which effectively solve the lack of locality inductive bias and enable it to learn from scratch even on small-size datasets. Moreover, SPT and LSA are generic and effective add-on modules that are easily applicable to various ViTs. Experimental results show that when both SPT and LSA were applied to the ViTs, the performance improved by an average of 2.96% in Tiny-ImageNet, which is a representative small-size dataset. Especially, Swin Transformer achieved an overwhelming performance improvement of 4.08% thanks to the proposed SPT and LSA.
연구 동기 및 목표
- 작은 데이터셋에서 처음부터 학습할 때 비전 트랜스포머의 지역성 귀납 바이어스 부족 문제를 다룹니다.
- 토크나이제이션과 지역 중심의 주의력을 개선하기 위한 일반적인 애드온 모듈(SPT 및 LSA)을 제안합니다.
- Tiny-ImageNet 및 CIFAR/CIFAR-100에서의 성능 향상을 보여주고 ImageNet과 같은 중간 규모 데이터셋에 미치는 영향을 평가합니다.
제안 방법
- 공간적으로 패치를 이동시키고 토큰화 전에 패치를 연결하여 시각 토큰의 수용 영역을 확장하는 Shifted Patch Tokenization (SPT)을 도입합니다.
- 자기 토큰 주의(attention) 자체를 제거하고 학습 가능한 소프트맥스 온도를 적용하여 지역 주의(attention)를 선명하게 만드는 대각 마스킹이 있는 Locality Self-Attention (LSA)을 제안합니다.
- ViTs에 손쉽게 추가 가능한 SPT를 패치 임베딩 및 풀링 계층에 적용하는 방법을 설명합니다.
- SPT와 LSA를 사용할 때 개선된 지역성 및 물체 형태 포착을 보여주는 정량적·정성적 분석을 제공합니다.
- 작은 데이터셋에서 ViT, PiT, Swin, CaiT 등 여러 ViT 변형과 SPT/LSA의 유무를 비교합니다.
실험 결과
연구 질문
- RQ1ViTs가 대규모 사전학습 없이 작은 사이즈의 데이터셋에서 처음부터 학습할 수 있는가?
- RQ2SPT와 LSA가 지역성 귀납 바이어스를 증가시키고 ViT 변형 전반에서 성능을 향상시키는가?
- RQ3이 방법들이 Tiny-ImageNet 및 CIFAR 유사 데이터셋의 정확도를 얼마나 향상시키며, ImageNet과 같은 중간 규모 데이터셋에 미치는 영향은 어느 정도인가?
주요 결과
- SPT와 LSA를 적용하면 테스트된 ViT들에서 Tiny-ImageNet에 대한 평균 정확도 증가가 2.96%를 기록합니다.
- 관찰된 최대 개선은 Tiny-ImageNet에서 4.08%로(예: Swin Transformer) 나타납니다.
- CIFAR-100에서 CaiT와 PiT은 각각 제안된 방법으로 3.43%와 4.01%의 향상을 보였습니다.
- Tiny-ImageNet에서 ViT와 Swin은 각각 최대 4.00% 및 4.08%의 개선을 보입니다.
- ImageNet를 처음부터 학습시키면 ViT는 최대 1.60%(SL-ViT) 및 1.44%(SL-PiT); Swin은 최대 1.06%(SL-Swin)까지 이익을 얻습니다.
- 아블레이션 결과, 학습 가능한 온도 스케일링과 대각 마스킹 모두 성능 향상에 기여하며, 이들의 결합이 시너지 효과를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.