QUICK REVIEW

[논문 리뷰] Training data-efficient image transformers & distillation through attention

Hugo Touvron, Matthieu Cord|arXiv (Cornell University)|2020. 12. 23.

Currency Recognition and Detection인용 수 130

한 줄 요약

이 논문은 Conv 없이 비전 트랜스포머를 ImageNet에서 데이터 효율적 방법으로만 학습시키고, 트랜스포머 전용 디스틸레이션 토큰을 도입하며, 합성곱 신경망(convnet)과 비교해 경쟁력 있는 정확도와 전이 성능을 보이고, 디스틸레이션을 포함한 강력한 ImageNet 결과를 보여준다.

ABSTRACT

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.

연구 동기 및 목표

Convolution-free 비전 트랜스포머가 한정된 컴퓨팅으로 ImageNet 성능에서 경쟁력에 도달할 수 있음을 Demonstrate한다.
트랜스포머 특화 디스틸레이션 방법을 distillation 토큰을 기반으로 도입하여 교사로부터 지식을 전이한다.
교사(ConvNet vs Transformer)의 다양한 선택이 distillation 및 전체 성능에 미치는 영향을 평가한다.
DeiT 모델의 다운스트림 이미지 분류 벤치마크에 대한 전이 학습 능력을 평가한다.

제안 방법

패치 토큰, 클래스 토큰, 그리고 새로운 디스틸레이션 토큰을 갖춘 ViT 유사 아키텍처(DeiT)를 채택한다.
강력한 데이터 증강을 사용하여 데이터 효율성을 가능하게 하기 위해 ImageNet1k를 단일 8-GPU 노드에서 학습한다(사전 학습 53시간; 총 약 3일).
소프트 디스틸레이션(KL 발산과 온도)과 하드 디스틸레이션(교사의 하드 레이블) 등 디스틸레이션 전략을 제안하고 형식화하며, 트랜스포머 특화 디스틸레이션 토큰을 추가한다.
디스틸레이션 토큰이 클래스/디스틸레이션 토큰과 셀프 어텐션을 통해 상호 작용하고 교사로부터의 지식 전달을 효과적으로 가능하게 함을 보여준다.
테스트 시 더 높은 해상도에서 디스틸레이션을 사용해 파인튜닝하고, 클래스 분류기와 디스틸레이션 분류기의 late fusion을 수행한다.
데이터 효율적 학습의 핵심 재료를 식별하기 위해 하이퍼파라미터, 데이터 증강, 학습 방식에 관한 분석을 제공한다.

실험 결과

연구 질문

RQ1외부 데이터나 대규모 사전 학습 없이도 비전 트랜스포머를 ImageNet에서 효과적으로 학습할 수 있는가?
RQ2트랜스포머 특화 디스틸레이션 토큰이 vanilla 디스틸레이션이나 디스틸레이션 없음보다 학생 모델의 성능을 향상시키는가?
RQ3교사의 선택(convnet 대 transformer)이 디스틸레이션 이득에 어떤 영향을 주는가?
RQ4ImageNet에서 사전 학습된 DeiT 모델이 convnet 및 다른 트랜스포머와 비교해 다운스트림 작업에 경쟁력 있게 전이되는가?

주요 결과

ImageNet1k에서 단독으로 학습된 DeiT 모델은 외부 데이터 없이도 경쟁력 있는 Top-1 정확도를 달성한다(예: DeiT-B가 224에서 300-에폭 전학습으로 83.1% 도달).
제안된 디스틸레이션 토큰을 통한 디스틸레이션으로 DeiT는 ImageNet-1k에서 최대 85.2%의 Top-1을 달성해, 유사 조건에서 JFT-300M에서 사전 학습된 ViT-B 모델을 능가한다.
Convnet 교사들이 일반적으로 트랜스포머 교사보다 디스틸레이션 성능이 더 좋으며, 이는 강한 귀납 바이어스가 트랜스포머 훈련에 도움이 됨을 시사한다.
디스틸레이션 기반 DeiT 모델은 정확도와 처리량 사이의 우호적인 트레이드오프를 제공하며, ImageNet만으로 학습할 때 ImageNet에서 종종 EfficientNet을 능가하거나 필적한다.
DeiT 모델은 다운스트림 작업으로 효과적으로 전이되며(CIFAR-10/100, Flowers-102, Stanford Cars, iNaturalist) ImageNet 사전 학습 후 경쟁력 있는 convnet 모델과 비슷한 성능을 보인다.
디스틸링된 모델의 더 긴 학습 일정은 지속적 이득을 주는 반면, 비디스틸 모델은 조기에 포화되는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.

[논문 리뷰] Training data-efficient image transformers &amp; distillation through attention