[논문 리뷰] Escaping the Big Data Paradigm with Compact Transformers
본 논문은 소규모 데이터셋에서 처음부터 학습할 수 있는 컴팩트 비전 트랜스포머(ViT-Lite, CVT, CCT)를 소개하며, 매개변수 수와 계산량이 훨씬 적은 조건에서 경쟁력 있거나 최첨단에 근접한 정확도를 달성합니다. 대규모 사전 학습 없이 CIFAR-10/100, Flowers-102, ImageNet에 대해 데이터 효율적인 트랜스포머 모델을 입증합니다.
With the rise of Transformers as the standard for language processing, and their advancements in computer vision, there has been a corresponding growth in parameter size and amounts of training data. Many have come to believe that because of this, transformers are not suitable for small sets of data. This trend leads to concerns such as: limited availability of data in certain scientific domains and the exclusion of those with limited resource from research in the field. In this paper, we aim to present an approach for small-scale learning by introducing Compact Transformers. We show for the first time that with the right size, convolutional tokenization, transformers can avoid overfitting and outperform state-of-the-art CNNs on small datasets. Our models are flexible in terms of model size, and can have as little as 0.28M parameters while achieving competitive results. Our best model can reach 98% accuracy when training from scratch on CIFAR-10 with only 3.7M parameters, which is a significant improvement in data-efficiency over previous Transformer based models being over 10x smaller than other transformers and is 15% the size of ResNet50 while achieving similar performance. CCT also outperforms many modern CNN based approaches, and even some recent NAS-based approaches. Additionally, we obtain a new SOTA result on Flowers-102 with 99.76% top-1 accuracy, and improve upon the existing baseline on ImageNet (82.71% accuracy with 29% as many parameters as ViT), as well as NLP tasks. Our simple and compact design for transformers makes them more feasible to study for those with limited computing resources and/or dealing with small datasets, while extending existing research efforts in data efficient transformers. Our code and pre-trained models are publicly available at https://github.com/SHI-Labs/Compact-Transformers.
연구 동기 및 목표
- 데이터가 부족한 작은 데이터셋에서 트랜스포머 모델을 처음부터 학습하도록 동기를 부여하고 가능하게 한다.
- 데이터 효율성과 국소성을 위해 합성곱 토크나이저를 결합한 컴팩트 트랜스포머 변형을 개발한다.
- SeqPool을 제안하여 클래스 토큰을 대체하고 출력 토큰 시퀀스의 풀링을 개선한다.
- 합성곱 토크나이저를 가진 CCT가 낮은 매개변수 수와 계산을 유지하면서도 강력한 정확도를 제공함을 보여준다.
- 모델 규모와 데이터 환경에 비해 CIFAR-10/100, Flowers-102, ImageNet에서 state-of-the-art 혹은 경쟁력 있는 결과를 보여준다.
제안 방법
- 작은 데이터 환경에 적합한 컴팩트 비전 트랜스포머 변형으로 ViT-Lite, CVT, CCT를 제안한다.
- CCT에서 표준 패치 기반 토크나이제이션을 합성곱 토크나이저로 대체하여 로컬 구조를 임베딩한다.
- Transformer 출력 구성을 단일 클래스 표현으로 매핑하기 위한 주의 기반 시퀀스 풀링 메커니즘인 SeqPool을 도입한다.
- AdamW와 코사인 어뮬레이션으로 CIFAR-10/100, CIFAR, MNIST, Fashion-MNIST, Flowers-102, ImageNet-1k에서 scratch 학습으로 평가한다.
- CNN 및 ViT/DeiT 기본 모델과의 비교, 증류(distillation) 시나리오를 포함하여 매개변수 수와 MAC를 보고한다.
실험 결과
연구 질문
- RQ1비전 트랜스포머를 대규모 사전 학습 없이 작은 데이터셋에서 효과적으로 처음부터 학습할 수 있는가?
- RQ2,
주요 결과
- CCT는 CIFAR-10에서 약 3.7M 매개변수의 모델로 학습된 scratch에서 98% 정확도를 달성하며(표 2의 5000 에포크에서 CIFAR-10에 대해 98.00%),
- CCT는 CIFAR-10/100 및 Flowers-102에서 ViT 및 다수의 CNN 기반 접근법보다 우수한 성능을 보이며 훨씬 적은 매개변수와 MAC를 사용한다(예: CVT 및 CCT 변형은 0.28–3.85M 매개변수로 강력한 결과를 보인다).
- ImageNet-1k에서 CCT-14/7×2는 증류 없이 Top-1 80.67%에 도달하고 매개변수는 22.36M이며, Distilled CCT 변형은 Top-1 81.34%를 달성한다.
- Flowers-102 결과는 ImageNet 규모의 사전학습에서 CCT-14/7×2가 99.76% Top-1을 달성하며 매개변수는 약 22.17M, MAC은 18.63G로 현저히 적다.
- CCT는 CIFAR-10/100에서 ResNet50의 약 15% 수준으로 모델 크기를 줄이면서도 유사하거나 더 나은 성능으로 데이터 효율이 우수함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.