QUICK REVIEW

[논문 리뷰] Vision Transformer Pruning

Mingjian Zhu, Yehui Tang|arXiv (Cornell University)|2021. 04. 17.

Advanced Neural Network Applications참고 문헌 44인용 수 53

한 줄 요약

이 논문은 Vision Transformer Pruning (VTP)을 소개합니다. 이는 L1 희소성으로 차원별 중요도 점수를 학습하여 ViT 모델의 MHSA와 MLP 프로젝션을 가지치기하고, 정확도 손실을 최소화하면서 매개변수 수와 FLOPs를 크게 줄이는 방법입니다.

ABSTRACT

Vision transformer has achieved competitive performance on a variety of computer vision applications. However, their storage, run-time memory, and computational demands are hindering the deployment to mobile devices. Here we present a vision transformer pruning approach, which identifies the impacts of dimensions in each layer of transformer and then executes pruning accordingly. By encouraging dimension-wise sparsity in the transformer, important dimensions automatically emerge. A great number of dimensions with small importance scores can be discarded to achieve a high pruning ratio without significantly compromising accuracy. The pipeline for vision transformer pruning is as follows: 1) training with sparsity regularization; 2) pruning dimensions of linear projections; 3) fine-tuning. The reduced parameters and FLOPs ratios of the proposed algorithm are well evaluated and analyzed on ImageNet dataset to demonstrate the effectiveness of our proposed method.

연구 동기 및 목표

엣지 디바이스에서 비전 트랜스포머의 저장 공간, 메모리 및 계산을 줄여 실용적 배치를 가능하게 한다.
프로젝션의 불필요한 특징 차원을 식별하고 제거하는 principled한 가지치기 프레임워크를 제안한다.
희소성 유도 학습이 자동으로 중요한 차원을 드러내고 상당한 압축을 가능하게 하며 정확도 손실을 제한한다.
ImageNet-1K 및 ImageNet-100에서 효과적인 가지치기와 속도 증가를 입증하는 경험적 검증을 제공한다.

제안 방법

MHSA 및 MLP 블록의 선형 프로젝션 차원에 대해 학습 가능한 중요도 점수를 도입한다.
이산적 가지치기 결정을 실수형 중요도 점수로 완화하고 L1 페널티를 사용하여 희소성을 강제한다.
희소성 규제 학습으로 거의 제로에 가까운 중요도 점수를 얻은 뒤 임계치를 적용하여 이진 가지치기 마스크를 얻는다.
모든 MHSA 및 MLP 구성요소에 걸쳐 가지치기를 적용하고, 가지치기된 프로젝션을 재배선하며 가지치기된 모델을 미세 조정한다.
ImageNet-1K 및 ImageNet-100에서 매개변수 수, FLOPs, 정확도 측면에서 압축성을 평가한다.

실험 결과

연구 질문

RQ1학습 가능한 중요도 점수를 통한 차원별 가지치기가 ViT에서 매개변수와 FLOPs를 실제로 감소시키며 큰 정확도 손실 없이 가능할까?
RQ2희소성 규제 학습 체제가 ViT에서 중요한 차원과 가지치기가 가능한 차원의 등장에 어떤 영향을 미치는가?
RQ3가지치기 비율, 모델 규모, 계산 비용 및 표준 비전 벤치마크에서의 정확도 사이의 트레이드오프는 무엇인가?
RQ4제안된 VTP 접근법은 ImageNet-1K 같은 대규모 데이터셋은 물론 ImageNet-100과 같은 소규모 부분집합에서도 효과적인가?

주요 결과

본 방법은 이미지넷 기반 벤치마크에서 정확도 손실은 제한적이면서 매개변수 수와 FLOPs를 크게 감소시킨다.
차원 중 40%까지 가지치기해도 대부분의 기준 정확도를 보존하고 FLOPs 감소를 달성할 수 있다.
가지치기 성능은 희소성 수준에 따라 확장되며 Imagenet-100과 Imagenet-1K에서 일관된다.
이 접근법은 비전 트랜스포머 가지치기의 간단한 기본선을 제공하고 실용적 배치 가능성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.