QUICK REVIEW

[논문 리뷰] NViT: Vision Transformer Compression and Parameter Redistribution.

Huanrui Yang, Hongxu Yin|arXiv (Cornell University)|2021. 10. 10.

Advanced Neural Network Applications참고 문헌 36인용 수 27

한 줄 요약

이 논문은 ViT 모델의 전역적이고 지연 시간을 고려한 구조적 프루닝을 기반으로 한 새로운 비전 트랜스포머 아키텍처인 NViT를 제안한다. 프루닝된 가중치 구조를 분석함으로써 저자들은 파rameter를 더 효율적으로 재분배하여 ImageNet-1K에서 FLOPs를 2.6배 감소시키고, 파라미터를 5.1배 감소시키며, 1.9배의 속도 향상을 이룩했으며, 정확도 손실은 0.07%에 불과하다. 이는 수동으로 설계된 DEIT 변종보다 지연 시간이 낮은 조건에서 정확도가 0.1–1.1% 높아졌다.

ABSTRACT

Transformers yield state-of-the-art results across many tasks. However, they still impose huge computational costs during inference. We apply global, structural pruning with latency-aware regularization on all parameters of the Vision Transformer (ViT) model for latency reduction. Furthermore, we analyze the pruned architectures and find interesting regularities in the final weight structure. Our discovered insights lead to a new architecture called NViT (Novel ViT), with a redistribution of where parameters are used. This architecture utilizes parameters more efficiently and enables control of the latency-accuracy trade-off. On ImageNet-1K, we prune the DEIT-Base (Touvron et al., 2021) model to a 2.6x FLOPs reduction, 5.1x parameter reduction, and 1.9x run-time speedup with only 0.07% loss in accuracy. We achieve more than 1% accuracy gain when compressing the base model to the throughput of the Small/Tiny variants. NViT gains 0.1-1.1% accuracy over the hand-designed DEIT family when trained from scratch, while being faster.

연구 동기 및 목표

추론 시 높은 계산 비용을 가지는 비전 트랜스포머의 비용을 줄이기 위해.
프루닝된 ViT 모델의 구조적 규칙성을 발견하여 아키텍처 재설계에 통찰을 제공하기 위해.
더 나은 지연 시간-정확도 트레이드오프를 위해 파라미터를 더 효율적으로 재분배하는 새로운 ViT 아키텍처인 NViT를 개발하기 위해.
정확도 저하를 최소화하면서도 상당한 모델 압축을 달성하고 추론 속도를 향상시키기 위해.

제안 방법

모든 ViT 파라미터에 대해 전역적이고 구조적인 프루닝을 적용하면서 지연 시간을 고려한 정규화를 수행하여 계산 비용을 줄이기 위해.
프루닝된 ViT 모델의 가중치 구조를 분석하여 반복적인 패턴과 규칙성을 식별하기 위해.
프루닝된 아키텍처에서의 통찰을 바탕으로 파라미터 사용 방식을 재구조화한 새로운 ViT 아키텍처인 NViT를 설계하기 위해.
NViT의 파라미터를 재분배하여 효율성을 향상시키고 조절 가능한 지연 시간-정확도 트레이드오프를 가능하게 하기 위해.
NViT를 처음부터 훈련시키고, 동일한 압축 조건에서 수동으로 설계된 DEIT 변종과 비교하기 위해.

실험 결과

연구 질문

RQ1전역적으로 프루닝된 비전 트랜스포머의 가중치 행렬에서 어떤 구조적 규칙성이 나타나는가?
RQ2프루닝된 ViT 아키텍처에서의 통찰은 더 효율적인 트랜스포머 모델 설계에 어떻게 기여할 수 있는가?
RQ3ViT의 재구조화된 파라미터 분포는 수동으로 설계된 변종에 비해 더 나은 지연 시간-정확도 트레이드오프를 제공할 수 있는가?
RQ4정확도 손실이 크지 않은 수준에서 FLOPs와 파라미터 수를 얼마나 줄일 수 있는가?

주요 결과

DEIT-Base를 전역적이고 지연 시간을 고려한 구조적 프루닝을 통해 프루닝함으로써 FLOPs가 2.6배 감소했고, 정확도 손실은 0.07%에 불과했다.
동일한 프루닝 과정을 통해 파라미터 수는 5.1배 감소했고, ImageNet-1K에서 런타임 속도가 1.9배 향상되었다.
NViT는 DEIT-Small나 DEIT-Tiny의 처리량 수준으로 압축되었을 때 DEIT 가족보다 1% 이상의 정확도 향상을 달성했다.
NViT는 처음부터 훈련되었을 때 수동으로 설계된 DEIT 변종보다 정확도가 0.1–1.1% 높았고, 더 빠른 속도를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.