Skip to main content
QUICK REVIEW

[논문 리뷰] Training data-efficient image transformers & distillation through attention

Hugo Touvron, Cord, Matthieu|arXiv (Cornell University)|2020. 12. 23.
Currency Recognition and Detection참고 문헌 61인용 수 1,049
한 줄 요약

이 논문은 단일 8-GPU 노드에서 ImageNet-1k 데이터만을 사용해 3일 이내에 학습을 완료하고, 상위 1위 정확도 83.1%를 달성하는 데이터 효율적인 이미지 트랜스포머 아키텍처인 DeiT(Data-efficient Image Transformers)를 소개한다. 또한, 교사 모델에서 학생 트랜스포머로 주의 메커니즘을 통해 지식 전이가 가능한 전용 디스티illation 토큰을 사용하는 새로운 디스티illation 방법을 제안하여, 특히 교사 모델이 컨볼루션 네트워크일 경우 표준 디스티illation보다 뛰어난 성능을 내며, 우수한 성능을 발휘한다.

ABSTRACT

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.

연구 동기 및 목표

  • 외부 데이터나 대규모 인프라 없이 ImageNet-1k 데이터만을 사용해 경쟁력 있는 정확도를 달성하는 비전 트랜스포머 훈련을 목표로 한다.
  • 표준 하드웨어에서 빠른 수렴을 가능하게 하는 데이터 효율적인 비전 트랜스포머 훈련 프로토콜을 개발하는 것.
  • 트랜스포머에 특화된 새로운 디스티illation 전략을 도입하여 표준 지식 디스티illation을 초월하는 성능 향상을 이루는 것.
  • 효율적으로 훈련된 비전 트랜스포머가 정확도 및 전이 성능 측면에서 컨볼루션 네트워크와 동등하거나 이를 초월할 수 있음을 입증하는 것.

제안 방법

  • 클래스 토큰과 유사하게 작동하지만, 자기 주의 메커니즘을 통해 교사 모델의 소프트 레이블을 예측하도록 훈련되는 새로운 디스티illation 토큰을 도입한다.
  • 학생-교사 프레임워크를 사용하여, 학생 트랜스포머가 디스티illation 토큰을 통해 교사의 주의 기반 출력 분포를 학습한다.
  • 일반화 및 강건성을 향상시키기 위해 반복적인 데이터 증강, mixup, cutmix, RandAugment를 적용한다.
  • 훈련의 안정성을 높이기 위해 가중치 감소, 레이블 스무딩, 확률적 깊이, 학습률 스케일링을 적용한다.
  • 해상도 조정 훈련 중에 위치 임베딩 적응을 위해 이중선형 보간을 사용하여 노름과 성능을 유지한다.
  • 단일 8-GPU 노드에서 300 에포크 동안 훈련을 수행하여 DeiT-B의 수렴 시간을 약 53시간 내로 확보한다.

실험 결과

연구 질문

  • RQ1ImageNet-1k 데이터만을 사용하고 외부 데이터 없이도 비전 트랜스포머가 최신 기술 수준의 성능을 달성할 수 있는가?
  • RQ2제한된 데이터에서 비전 트랜스포머를 데이터 효율적으로 훈련시키기 위해 필수적인 훈련 기법은 무엇인가?
  • RQ3트랜스포머에 특화된 디스티illation 방법이 표준 지식 디스티illation을 능가할 수 있는가?
  • RQ4다른 트랜스포머가 아닌 컨볼루션 네트워크에서 디스티illation하면 성능 향상이 더 크다고 할 수 있는가?
  • RQ5제안된 디스티illation 토큰은 표준 디스티illation 대비 정확도 및 일반화 성능 측면에서 어떻게 비교되는가?

주요 결과

  • DeiT-B는 단일 8-GPU 노드에서 ImageNet-1k 데이터만을 사용해 3일 이내에 훈련을 완료하고, 상위 1위 정확도 83.1%를 달성한다.
  • 제안된 디스티illation 토큰(DeiT⚗)을 사용할 경우, ImageNet-1k에서 상위 1위 정확도 85.2%를 달성하여 표준 디스티illation을 뛰어넘는다.
  • ResNet-50 교사 모델에서 디스티illation을 수행할 경우, 유사한 크기의 ViT 교사 모델에서의 성능보다 뛰어나며, 인덕티브 바이어스 전이의 효과를 입증한다.
  • 디스티illation 토큰 전략은 특히 저자료 환경에서 성능 향상이 뚜렷하며, 표준 디스티illation보다 더 효과적이다.
  • DeiT 모델은 CIFAR-10, CIFAR-100, Oxford-102 Flowers, Stanford Cars, iNaturalist-18/19 등의 다운스트림 작업에서 경쟁력 있는 성능을 기록한다.
  • 더 높은 해상도(384×384)에서의 피니어 투닝을 통해 ImageNet-v2에서 정확도를 87.7%까지 향상시켜 모델의 확장성과 가능성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.