QUICK REVIEW

[논문 리뷰] Structured Probabilistic Pruning for Convolutional Neural Network Acceleration

Huan Wang, Qiming Zhang|arXiv (Cornell University)|2017. 09. 20.

Advanced Neural Network Applications참고 문헌 34인용 수 52

한 줄 요약

SPP는 CNN에 대한 확률적이고 구조화된 가지치기를 도입하여 가중치의 가지치기 확률을 점진적으로 조정함으로써 모델의 속도를 높이고 이전에 가지치기된 가중치의 회복을 허용합니다; AlexNet, VGG-16, ResNet-50에서 최소한의 정확도 손실로 주목할 만한 속도 향상을 달성합니다.

ABSTRACT

In this paper, we propose a novel progressive parameter pruning method for Convolutional Neural Network acceleration, named Structured Probabilistic Pruning (SPP), which effectively prunes weights of convolutional layers in a probabilistic manner. Unlike existing deterministic pruning approaches, where unimportant weights are permanently eliminated, SPP introduces a pruning probability for each weight, and pruning is guided by sampling from the pruning probabilities. A mechanism is designed to increase and decrease pruning probabilities based on importance criteria in the training process. Experiments show that, with 4x speedup, SPP can accelerate AlexNet with only 0.3% loss of top-5 accuracy and VGG-16 with 0.8% loss of top-5 accuracy in ImageNet classification. Moreover, SPP can be directly applied to accelerate multi-branch CNN networks, such as ResNet, without specific adaptations. Our 2x speedup ResNet-50 only suffers 0.8% loss of top-5 accuracy on ImageNet. We further show the effectiveness of SPP on transfer learning tasks.

연구 동기 및 목표

모바일/임베디드 배포를 위한 CNN 가속화를 위해 정확도를 손상시키지 않으면서 컴퓨팅 및 저장 공간을 줄이고자 한다.
가중치가 학습 중에 중요한 위치로 되돌아갈 수 있도록 확률적이고 구조화된 가지치기 프레임워크를 제안한다.
다양한 구조(AlexNet, VGG-16, ResNet-50) 및 작업(ImageNet, CIFAR-10, 전이 학습)에서 효과를 입증한다.
표준 딥 러닝 툴체인과 호환되는 구조화 희소성 유지를 위한 실용적인 가이드를 제공한다.

제안 방법

각 가중치 그룹(예: 가중치 행렬의 열)에 가지치기 확률 p를 부여하고 p에 따라 샘플링하여 가지치기를 수행한다.
중요도 기준에 기반한 경쟁 기제를 통해 p를 업데이트하고 가중치 그룹의 L1 노름의 순위를 사용하여 증가분 Δ(r)을 결정한다.
마지막 단계에서 정확히 RNc 그룹이 가지치어지도록 중심 대칭 지수 함수 Δ(r)을 사용하여 가지치기 증가를 제어한다.
일관된 런타임을 위해 모든 층을 동시에 가지치고(층별 아님) p에서 몬테카를로 샘플링으로 마스크 g를 생성하고 학습 중에 마스킹을 적용한다.
가치가 목표 비율 R에 도달할 때까지 가지치기를 수행한 후 다시 학습하여 정확도를 회복한다.
현실적인 알고리즘(Algorithm 1)과 기본 하이퍼파라미터(A=0.05, u=0.25, t=180)를 제공한다.

실험 결과

연구 질문

RQ1확률적이고 구조화된 가지치기(SPP)가 일반적인 아키텍처와 데이터셋에서 CNN을 가속화하면서 정확도를 유지할 수 있는가?
RQ2회복 가능한(영구적인 조기 가지치기가 아닌) 가지치기 확률을 허용하는 것이 최종 모델 성능을 deterministic 가지치기와 비교하여 향상시키는가?
RQ3SPP가 다중 가지 네트워크(예: ResNet)와 전이 학습 시나리오에서 어떻게 작동하는가?
RQ4실제 하드웨어에서 달성 가능한 실용적 속도향상은 어느 정도이며 이들이 이론적 FLOP 감소와 어떻게 관련되는가?
RQ5어떤 가지치기 기준과 업데이트 일정이 아키텍처 전반에서 견고한 결과를 내는가?

주요 결과

Method	2x	4x	6x	8x	10x	Increase in Err (%)
TP Molchanov et al. (2017)	3.9	9.2	13.9	-	-	-
FP Li et al. (2017) (impl.)	0.6	4.1	4.7	-	-	-
SSL Wen et al. (2015)	1.3	4.3	5.3	-	-	-
SPP (ours)	0	0.3	1.2	1.5	2.4	-

SPP는 ImageNet에서 4x 속도 향상을 달성하며 top-5 정확도 손실은 0.3%이다.
SPP는 VGG-16에서 4x 속도 향상을 달성하며 setup에 따라 top-5 정확도 손실은 0.3%–0.8%이다(0.3%에서 2x, 최대 0.8%에서 4x).
SPP는 ImageNet에서 0.8%의 top-5 정확도 손실로 ResNet-50에서 2x 속도 향상을 달성한다.
SPP는 특별한 적응 없이 다중-브랜치 네트워크에 적용 가능하며 CPU 구현에서도 실용적인 속도 향상을 보여준다.
SPP는 전이 학습 이점을 보여주며 Oxford Flower-102에서 전이 작업에서 Taylor Pruning을 능가한다.
CIFAR-10과 ImageNet 전반에 걸쳐 SPP는 비슷한 속도 향상에서 경쟁 구조화 가지치기 방법들(TP, FP, SSL, CP)보다 일반적으로 정확도에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.