Skip to main content
QUICK REVIEW

[논문 리뷰] Soft Weight-Sharing for Neural Network Compression

Karen Ullrich, Edward Meeds|arXiv (Cornell University)|2017. 02. 13.
Advanced Neural Network Applications인용 수 81
한 줄 요약

본 논문은 가중치에 대해 학습된 가우시안 혼합 사전(소프트 가중치 공유)을 사용하여 재학습 중에 동시 pruning과 양자화를 달성하고, 다단계 pruning/quantization 파이프라인 없이도 경쟁력 있는 압축을 가능하게 한다.

ABSTRACT

The success of deep learning in numerous application domains created the de- sire to run and train them on mobile devices. This however, conflicts with their computationally, memory and energy intense nature, leading to a growing interest in compression. Recent work by Han et al. (2015a) propose a pipeline that involves retraining, pruning and quantization of neural network weights, obtaining state-of-the-art compression rates. In this paper, we show that competitive compression rates can be achieved by using a version of soft weight-sharing (Nowlan & Hinton, 1992). Our method achieves both quantization and pruning in one simple (re-)training procedure. This point of view also exposes the relation between compression and the minimum description length (MDL) principle.

연구 동기 및 목표

  • 온디바이스 배치를 위한 신경망 압축을 통해 메모리 및 에너지 요구를 줄이려는 동기 부여.
  • 가중치에 대한 경험적 베이즈 우선순위를 제안하여 군집화와 가지치기를 촉진.
  • soft weight-sharing이 최소한의 정확도 손실로도 경쟁력 있는 압축을 달성함을 Demonstrate.
  • MDL 및 비트백 통찰이 압축과 확률적 모델링 및 코딩을 어떻게 연결하는지 보여줌.
  • 실제 네트워크에서 압축을 실현하기 위한 재학습 및 후처리 단계 제공

제안 방법

  • 가중치를 mixture of Gaussians prior p(w) = product_i sum_j pi_j N(w_i | mu_j, sigma_j^2)로 모델링한다.
  • 가중치와 혼합 매개변수(mu_j, sigma_j, pi_j)를 최대우도 추정(empirical Bayes)을 통해 함께 학습한다.
  • 객관식 함수 L = Le + tau * Lc를 최적화한다. 여기서 Le는 데이터 가능도 항이고 Lc = KL(q(w)||p(w))이다.
  • soft weight-sharing을 이용한 재학습 중 인자화된 Dirac 포스트리오를 사용하여 혼합 구성요소 주위의 군집화를 장려한다.
  • 0 구성요소를 고정하여 pruning을 강제하고 오차 항의 압력이 낮을 때 다른 구성요소들이 합쳐지도록 한다.
  • 가중치와 혼합 매개변수를 업데이트하기 위해 그래디언트 기반 최적화(Adam)를 적용하고, 사전 정보를 작게 tau로 가중한다.
  • 가장 기여하는 구성요소의 평균으로 가중치를 할당하고 이웃과 거의 중복되는 구성요소를 병합하여 후처리한다

실험 결과

연구 질문

  • RQ1학습된 가우시안 혼합 사전이 재학습 중에 동시 양자화 및 pruning을 유도할 수 있는가?
  • RQ2소프트 weight-sharing이 신경망 압축에서 MDL 및 비트백 원칙과 어떻게 관련되는가?
  • RQ3이 방법을 사용하여 표준 모델(예: LeNet 변종, ResNet)에서 달성 가능한 압축 속도와 정확도 트레이드오프는 어떠한가?
  • RQ4초기 구성요소 붕괴를 피하고 확장 가능한 압축을 달성하기 위해 하이퍼파라미터와 Priors를 어떻게 구성할 수 있는가?

주요 결과

모델방법Top-1 Error[%]Δ[%]|W|[10^6]|W_≠0|/|W|[%]CR
LeNet-300-100Han et al. (2015a)1.64 → 1.580.060.28.040
LeNet-300-100Guo et al. (2016)2.28 → 1.99-0.291.856
LeNet-300-100Ours1.89 → 1.94-0.054.364
LeNet-5-CaffeHan et al. (2015a)0.80 → 0.74-0.060.48.039
LeNet-5-CaffeGuo et al. (2016)0.91 → 0.910.000.90.9108
LeNet-5-CaffeOurs0.88 → 0.970.090.5162
ResNet (light)Ours6.48 → 8.502.022.76.645
  • MNIST 모델에서 경쟁력 있는 압축률 달성, 재학습 중에 주목할 만한 pruning 및 quantization 효과 관찰.
  • LeNet-300-100에서 첫 층에서 최대 96% pruning 및 총 압축률 64x로 정확도 하락 최소(0.9811에서 0.9806로)
  • LeNet-5-Caffe에서 보고된 설정에서 최종 압축률 162x 달성, 정확도는 modest 증가
  • 가벼운 ResNet 모델(2.7M 매개변수)에서 45% 가중치 희소성, 6.6% 비제로 가중치 밀도 및 압축 후 top-1 오차 8.50%(6.48%에서 증가)
  • 하이퍼파라미터 최적화(Bayesian optimization via Spearmint)로 13개 설정 탐색, 정확도 손실과 압축률의 균형을 모색

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.