QUICK REVIEW

[논문 리뷰] Soft Weight-Sharing for Neural Network Compression

Karen Ullrich, Edward Meeds|arXiv (Cornell University)|2017. 02. 13.

Advanced Neural Network Applications인용 수 81

한 줄 요약

본 논문은 가중치에 대해 학습된 가우시안 혼합 사전(소프트 가중치 공유)을 사용하여 재학습 중에 동시 pruning과 양자화를 달성하고, 다단계 pruning/quantization 파이프라인 없이도 경쟁력 있는 압축을 가능하게 한다.

ABSTRACT

The success of deep learning in numerous application domains created the de- sire to run and train them on mobile devices. This however, conflicts with their computationally, memory and energy intense nature, leading to a growing interest in compression. Recent work by Han et al. (2015a) propose a pipeline that involves retraining, pruning and quantization of neural network weights, obtaining state-of-the-art compression rates. In this paper, we show that competitive compression rates can be achieved by using a version of soft weight-sharing (Nowlan & Hinton, 1992). Our method achieves both quantization and pruning in one simple (re-)training procedure. This point of view also exposes the relation between compression and the minimum description length (MDL) principle.

연구 동기 및 목표

온디바이스 배치를 위한 신경망 압축을 통해 메모리 및 에너지 요구를 줄이려는 동기 부여.
가중치에 대한 경험적 베이즈 우선순위를 제안하여 군집화와 가지치기를 촉진.
soft weight-sharing이 최소한의 정확도 손실로도 경쟁력 있는 압축을 달성함을 Demonstrate.
MDL 및 비트백 통찰이 압축과 확률적 모델링 및 코딩을 어떻게 연결하는지 보여줌.
실제 네트워크에서 압축을 실현하기 위한 재학습 및 후처리 단계 제공

제안 방법

가중치를 mixture of Gaussians prior p(w) = product_i sum_j pi_j N(w_i | mu_j, sigma_j^2)로 모델링한다.
가중치와 혼합 매개변수(mu_j, sigma_j, pi_j)를 최대우도 추정(empirical Bayes)을 통해 함께 학습한다.
객관식 함수 L = Le + tau * Lc를 최적화한다. 여기서 Le는 데이터 가능도 항이고 Lc = KL(q(w)||p(w))이다.
soft weight-sharing을 이용한 재학습 중 인자화된 Dirac 포스트리오를 사용하여 혼합 구성요소 주위의 군집화를 장려한다.
0 구성요소를 고정하여 pruning을 강제하고 오차 항의 압력이 낮을 때 다른 구성요소들이 합쳐지도록 한다.
가중치와 혼합 매개변수를 업데이트하기 위해 그래디언트 기반 최적화(Adam)를 적용하고, 사전 정보를 작게 tau로 가중한다.
가장 기여하는 구성요소의 평균으로 가중치를 할당하고 이웃과 거의 중복되는 구성요소를 병합하여 후처리한다

실험 결과

연구 질문

RQ1학습된 가우시안 혼합 사전이 재학습 중에 동시 양자화 및 pruning을 유도할 수 있는가?
RQ2소프트 weight-sharing이 신경망 압축에서 MDL 및 비트백 원칙과 어떻게 관련되는가?
RQ3이 방법을 사용하여 표준 모델(예: LeNet 변종, ResNet)에서 달성 가능한 압축 속도와 정확도 트레이드오프는 어떠한가?
RQ4초기 구성요소 붕괴를 피하고 확장 가능한 압축을 달성하기 위해 하이퍼파라미터와 Priors를 어떻게 구성할 수 있는가?

주요 결과

모델	방법	Top-1 Error[%]	Δ[%]	\|W\|[10^6]	\|W_≠0\|/\|W\|[%]	CR
LeNet-300-100	Han et al. (2015a)	1.64 → 1.58	0.06	0.2	8.0	40
LeNet-300-100	Guo et al. (2016)	2.28 → 1.99	-0.29		1.8	56
LeNet-300-100	Ours	1.89 → 1.94	-0.05		4.3	64
LeNet-5-Caffe	Han et al. (2015a)	0.80 → 0.74	-0.06	0.4	8.0	39
LeNet-5-Caffe	Guo et al. (2016)	0.91 → 0.91	0.00	0.9	0.9	108
LeNet-5-Caffe	Ours	0.88 → 0.97	0.09	0.5		162
ResNet (light)	Ours	6.48 → 8.50	2.02	2.7	6.6	45

MNIST 모델에서 경쟁력 있는 압축률 달성, 재학습 중에 주목할 만한 pruning 및 quantization 효과 관찰.
LeNet-300-100에서 첫 층에서 최대 96% pruning 및 총 압축률 64x로 정확도 하락 최소(0.9811에서 0.9806로)
LeNet-5-Caffe에서 보고된 설정에서 최종 압축률 162x 달성, 정확도는 modest 증가
가벼운 ResNet 모델(2.7M 매개변수)에서 45% 가중치 희소성, 6.6% 비제로 가중치 밀도 및 압축 후 top-1 오차 8.50%(6.48%에서 증가)
하이퍼파라미터 최적화(Bayesian optimization via Spearmint)로 13개 설정 탐색, 정확도 손실과 압축률의 균형을 모색

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.