Skip to main content
QUICK REVIEW

[논문 리뷰] Structured Probabilistic Pruning for Convolutional Neural Network Acceleration

Huan Wang, Qiming Zhang|arXiv (Cornell University)|2017. 09. 20.
Advanced Neural Network Applications참고 문헌 34인용 수 52
한 줄 요약

SPP는 CNN에 대한 확률적이고 구조화된 가지치기를 도입하여 가중치의 가지치기 확률을 점진적으로 조정함으로써 모델의 속도를 높이고 이전에 가지치기된 가중치의 회복을 허용합니다; AlexNet, VGG-16, ResNet-50에서 최소한의 정확도 손실로 주목할 만한 속도 향상을 달성합니다.

ABSTRACT

In this paper, we propose a novel progressive parameter pruning method for Convolutional Neural Network acceleration, named Structured Probabilistic Pruning (SPP), which effectively prunes weights of convolutional layers in a probabilistic manner. Unlike existing deterministic pruning approaches, where unimportant weights are permanently eliminated, SPP introduces a pruning probability for each weight, and pruning is guided by sampling from the pruning probabilities. A mechanism is designed to increase and decrease pruning probabilities based on importance criteria in the training process. Experiments show that, with 4x speedup, SPP can accelerate AlexNet with only 0.3% loss of top-5 accuracy and VGG-16 with 0.8% loss of top-5 accuracy in ImageNet classification. Moreover, SPP can be directly applied to accelerate multi-branch CNN networks, such as ResNet, without specific adaptations. Our 2x speedup ResNet-50 only suffers 0.8% loss of top-5 accuracy on ImageNet. We further show the effectiveness of SPP on transfer learning tasks.

연구 동기 및 목표

  • 모바일/임베디드 배포를 위한 CNN 가속화를 위해 정확도를 손상시키지 않으면서 컴퓨팅 및 저장 공간을 줄이고자 한다.
  • 가중치가 학습 중에 중요한 위치로 되돌아갈 수 있도록 확률적이고 구조화된 가지치기 프레임워크를 제안한다.
  • 다양한 구조(AlexNet, VGG-16, ResNet-50) 및 작업(ImageNet, CIFAR-10, 전이 학습)에서 효과를 입증한다.
  • 표준 딥 러닝 툴체인과 호환되는 구조화 희소성 유지를 위한 실용적인 가이드를 제공한다.

제안 방법

  • 각 가중치 그룹(예: 가중치 행렬의 열)에 가지치기 확률 p를 부여하고 p에 따라 샘플링하여 가지치기를 수행한다.
  • 중요도 기준에 기반한 경쟁 기제를 통해 p를 업데이트하고 가중치 그룹의 L1 노름의 순위를 사용하여 증가분 Δ(r)을 결정한다.
  • 마지막 단계에서 정확히 RNc 그룹이 가지치어지도록 중심 대칭 지수 함수 Δ(r)을 사용하여 가지치기 증가를 제어한다.
  • 일관된 런타임을 위해 모든 층을 동시에 가지치고(층별 아님) p에서 몬테카를로 샘플링으로 마스크 g를 생성하고 학습 중에 마스킹을 적용한다.
  • 가치가 목표 비율 R에 도달할 때까지 가지치기를 수행한 후 다시 학습하여 정확도를 회복한다.
  • 현실적인 알고리즘(Algorithm 1)과 기본 하이퍼파라미터(A=0.05, u=0.25, t=180)를 제공한다.

실험 결과

연구 질문

  • RQ1확률적이고 구조화된 가지치기(SPP)가 일반적인 아키텍처와 데이터셋에서 CNN을 가속화하면서 정확도를 유지할 수 있는가?
  • RQ2회복 가능한(영구적인 조기 가지치기가 아닌) 가지치기 확률을 허용하는 것이 최종 모델 성능을 deterministic 가지치기와 비교하여 향상시키는가?
  • RQ3SPP가 다중 가지 네트워크(예: ResNet)와 전이 학습 시나리오에서 어떻게 작동하는가?
  • RQ4실제 하드웨어에서 달성 가능한 실용적 속도향상은 어느 정도이며 이들이 이론적 FLOP 감소와 어떻게 관련되는가?
  • RQ5어떤 가지치기 기준과 업데이트 일정이 아키텍처 전반에서 견고한 결과를 내는가?

주요 결과

Method2x4x6x8x10xIncrease in Err (%)
TP Molchanov et al. (2017)3.99.213.9---
FP Li et al. (2017) (impl.)0.64.14.7---
SSL Wen et al. (2015)1.34.35.3---
SPP (ours)00.31.21.52.4-
  • SPP는 ImageNet에서 4x 속도 향상을 달성하며 top-5 정확도 손실은 0.3%이다.
  • SPP는 VGG-16에서 4x 속도 향상을 달성하며 setup에 따라 top-5 정확도 손실은 0.3%–0.8%이다(0.3%에서 2x, 최대 0.8%에서 4x).
  • SPP는 ImageNet에서 0.8%의 top-5 정확도 손실로 ResNet-50에서 2x 속도 향상을 달성한다.
  • SPP는 특별한 적응 없이 다중-브랜치 네트워크에 적용 가능하며 CPU 구현에서도 실용적인 속도 향상을 보여준다.
  • SPP는 전이 학습 이점을 보여주며 Oxford Flower-102에서 전이 작업에서 Taylor Pruning을 능가한다.
  • CIFAR-10과 ImageNet 전반에 걸쳐 SPP는 비슷한 속도 향상에서 경쟁 구조화 가지치기 방법들(TP, FP, SSL, CP)보다 일반적으로 정확도에서 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.