QUICK REVIEW

[논문 리뷰] Learning Efficient Vision Transformers via Fine-Grained Manifold Distillation

Zhiwei Hao, Jianyuan Guo|arXiv (Cornell University)|2021. 07. 03.

Advanced Neural Network Applications인용 수 23

한 줄 요약

이 논문은 교사 및 학생 모델 간의 패치 수준 특징 다양체를 일치시켜 Vision Transformer를 압축하기 위해 미세한 수준의 다양체 distillation을 제안한다. 손실 항목을 분리함으로써 계산 비용을 크게 감소시킨다. DeiT-Tiny 학생 모델을 사용하여 ImageNet-1k에서 76.5%의 top-1 정확도를 달성하며, 이는 이전의 distillation 방법보다 +2.0% 높은 성능이다. 또한 전이 학습 및 객체 검출 작업에서 뛰어난 일반화 능력을 유지한다.

ABSTRACT

In the past few years, transformers have achieved promising performances on various computer vision tasks. Unfortunately, the immense inference overhead of most existing vision transformers withholds their from being deployed on edge devices such as cell phones and smart watches. Knowledge distillation is a widely used paradigm for compressing cumbersome architectures via transferring information to a compact student. However, most of them are designed for convolutional neural networks (CNNs), which do not fully investigate the character of vision transformer (ViT). In this paper, we utilize the patch-level information and propose a fine-grained manifold distillation method. Specifically, we train a tiny student model to match a pre-trained teacher model in the patch-level manifold space. Then, we decouple the manifold matching loss into three terms with careful design to further reduce the computational costs for the patch relationship. Equipped with the proposed method, a DeiT-Tiny model containing 5M parameters achieves 76.5% top-1 accuracy on ImageNet-1k, which is +2.0% higher than previous distillation approaches. Transfer learning results on other classification benchmarks and downstream vision tasks also demonstrate the superiority of our method over the state-of-the-art algorithms.

연구 동기 및 목표

Vision Transformer의 높은 추론 비용이 스마트폰 및 스마트워치와 같은 엣지 디바이스에의 배포를 제한하는 문제를 해결하기 위해.
기존 지식 distillation 방법이 주로 CNN에 설계되어 있으며, Vision Transformer의 패치 수준 구조를 효과적으로 활용하지 못하는 한계를 극복하기 위해.
지식 전달을 향상시키기 위해 중간층 특징 관계를 미세한 수준의 다양체 기반 방식으로 활용하는 distillation 방법을 개발하기 위해.
손실 분리 및 패치 병합을 통해 다양체 일치의 계산 복잡도를 줄이면서 성능를 유지하기 위해.
소프트 레이블 distillation과 고정 깊이 학생 아키텍처가 비전 트랜스포머 압축에서 더 나은 일반화를 이끌어내는지 입증하기 위해.

제안 방법

이 방법은 교사 및 학생 네트워크의 패치 수준 특징 표현을 다양체 공간으로 모델링하여 각 트랜스포머 레이어에서 패치 간 상호관계를 캡처한다.
세 가지 항목으로 구성된 분리된 다양체 distillation 손실을 도입하여 계산 복잡도를 감소시킨다: 이미지 간 관계, 이미지 내 관계, 무작위로 샘플된 관계 일치.
이미지 간 손실은 서로 다른 이미지 간 패치 간 상대적 관계를 일치시키며, 이미지 내 손실은 동일한 이미지 내 관계를 유지한다.
무작위로 샘플된 손실 항목은 전체 쌍방향 관계 매트릭스를 일부 패치의 서브셋으로 근사함으로써 계산량을 줄여 약 2개의 지수 정도의 속도 향상을 달성한다.
더 나아가 패치 병합 전략을 적용하여 다양체 표현을 단순화하고 계산 부담을 줄인다.
학생 모델은 교사의 소프트 레이블과 중간층 특징 다양체를 일치시도록 훈련되며, 일관된 distillation을 보장하기 위해 고정된 깊이를 갖는다.

실험 결과

연구 질문

RQ1비전 트랜스포머의 패치 수준 다양체 관계가 지식 distillation에 효과적으로 활용될 수 있는가?
RQ2완전한 다양체 일치의 높은 계산 비용은 성능 손실 없이 어떻게 줄일 수 있는가?
RQ3소프트 레이블 distillation과 고정 깊이 학생 훈련이 하드 레이블 또는 가변 깊이 접근 방식보다 더 나은 일반화를 이끌어내는가?
RQ4정확도와 효율성 측면에서 기존 distillation 방법에 비해 미세한 수준의 다양체 distillation은 이미지 분류 및 후속 작업에서 어떻게 비교되는가?
RQ5손실 가중치, 샘플링 크기 등과 같은 하이퍼파rameter 설정 중 어떤 조합이 제안된 distillation 프레임워크에서 최적의 성능을 낼 수 있는가?

주요 결과

제안된 미세한 수준의 다양체 distillation 방법은 DeiT-Tiny 학생 모델(5M 파라미터)을 사용하여 ImageNet-1k에서 76.5%의 top-1 정확도를 달성하며, 이는 이전의 distillation 방법보다 +2.0% 높은 성능이다.
CIFAR-10과 CIFAR-100에서 전이 학습 성능이 각각 +0.25%와 +0.71% 향상되어 뛰어난 일반화 능력을 입증한다.
COCO 2017에서 객체 검출 작업에서, distillation을 적용한 Swin-Tiny 모델은 박스 AP 44.7%를 기록하여 distillation 없이 훈련된 학생 모델 대비 +1.0% 향상되었다.
제거 실험을 통해 소프트 레이블 distillation과 고정 깊이 학생 훈련이 성능 향상에 핵심적임을 확인하였으며, 이들 구성 요소를 제거할 경우 정확도가 크게 떨어졌다.
분리된 손실 설계 덕분에 전체 다양체 일치 대비 약 2개의 지수 정도 계산 복잡도가 감소하여 효율적인 훈련을 가능하게 하였다.
하이퍼파rameter 제거 실험 결과, 기본 설정(α=4.0, β=0.1, γ=0.2, K=192)이 최적의 성능을 낼 수 있었으며, 향후 튜닝으로 더 나은 결과를 얻을 수 있을 것으로 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.