[논문 리뷰] Soft Weight-Sharing for Neural Network Compression
본 논문은 가중치에 대해 학습된 가우시안 혼합 사전(소프트 가중치 공유)을 사용하여 재학습 중에 동시 pruning과 양자화를 달성하고, 다단계 pruning/quantization 파이프라인 없이도 경쟁력 있는 압축을 가능하게 한다.
The success of deep learning in numerous application domains created the de- sire to run and train them on mobile devices. This however, conflicts with their computationally, memory and energy intense nature, leading to a growing interest in compression. Recent work by Han et al. (2015a) propose a pipeline that involves retraining, pruning and quantization of neural network weights, obtaining state-of-the-art compression rates. In this paper, we show that competitive compression rates can be achieved by using a version of soft weight-sharing (Nowlan & Hinton, 1992). Our method achieves both quantization and pruning in one simple (re-)training procedure. This point of view also exposes the relation between compression and the minimum description length (MDL) principle.
연구 동기 및 목표
- 온디바이스 배치를 위한 신경망 압축을 통해 메모리 및 에너지 요구를 줄이려는 동기 부여.
- 가중치에 대한 경험적 베이즈 우선순위를 제안하여 군집화와 가지치기를 촉진.
- soft weight-sharing이 최소한의 정확도 손실로도 경쟁력 있는 압축을 달성함을 Demonstrate.
- MDL 및 비트백 통찰이 압축과 확률적 모델링 및 코딩을 어떻게 연결하는지 보여줌.
- 실제 네트워크에서 압축을 실현하기 위한 재학습 및 후처리 단계 제공
제안 방법
- 가중치를 mixture of Gaussians prior p(w) = product_i sum_j pi_j N(w_i | mu_j, sigma_j^2)로 모델링한다.
- 가중치와 혼합 매개변수(mu_j, sigma_j, pi_j)를 최대우도 추정(empirical Bayes)을 통해 함께 학습한다.
- 객관식 함수 L = Le + tau * Lc를 최적화한다. 여기서 Le는 데이터 가능도 항이고 Lc = KL(q(w)||p(w))이다.
- soft weight-sharing을 이용한 재학습 중 인자화된 Dirac 포스트리오를 사용하여 혼합 구성요소 주위의 군집화를 장려한다.
- 0 구성요소를 고정하여 pruning을 강제하고 오차 항의 압력이 낮을 때 다른 구성요소들이 합쳐지도록 한다.
- 가중치와 혼합 매개변수를 업데이트하기 위해 그래디언트 기반 최적화(Adam)를 적용하고, 사전 정보를 작게 tau로 가중한다.
- 가장 기여하는 구성요소의 평균으로 가중치를 할당하고 이웃과 거의 중복되는 구성요소를 병합하여 후처리한다
실험 결과
연구 질문
- RQ1학습된 가우시안 혼합 사전이 재학습 중에 동시 양자화 및 pruning을 유도할 수 있는가?
- RQ2소프트 weight-sharing이 신경망 압축에서 MDL 및 비트백 원칙과 어떻게 관련되는가?
- RQ3이 방법을 사용하여 표준 모델(예: LeNet 변종, ResNet)에서 달성 가능한 압축 속도와 정확도 트레이드오프는 어떠한가?
- RQ4초기 구성요소 붕괴를 피하고 확장 가능한 압축을 달성하기 위해 하이퍼파라미터와 Priors를 어떻게 구성할 수 있는가?
주요 결과
| 모델 | 방법 | Top-1 Error[%] | Δ[%] | |W|[10^6] | |W_≠0|/|W|[%] | CR |
|---|---|---|---|---|---|---|
| LeNet-300-100 | Han et al. (2015a) | 1.64 → 1.58 | 0.06 | 0.2 | 8.0 | 40 |
| LeNet-300-100 | Guo et al. (2016) | 2.28 → 1.99 | -0.29 | 1.8 | 56 | |
| LeNet-300-100 | Ours | 1.89 → 1.94 | -0.05 | 4.3 | 64 | |
| LeNet-5-Caffe | Han et al. (2015a) | 0.80 → 0.74 | -0.06 | 0.4 | 8.0 | 39 |
| LeNet-5-Caffe | Guo et al. (2016) | 0.91 → 0.91 | 0.00 | 0.9 | 0.9 | 108 |
| LeNet-5-Caffe | Ours | 0.88 → 0.97 | 0.09 | 0.5 | 162 | |
| ResNet (light) | Ours | 6.48 → 8.50 | 2.02 | 2.7 | 6.6 | 45 |
- MNIST 모델에서 경쟁력 있는 압축률 달성, 재학습 중에 주목할 만한 pruning 및 quantization 효과 관찰.
- LeNet-300-100에서 첫 층에서 최대 96% pruning 및 총 압축률 64x로 정확도 하락 최소(0.9811에서 0.9806로)
- LeNet-5-Caffe에서 보고된 설정에서 최종 압축률 162x 달성, 정확도는 modest 증가
- 가벼운 ResNet 모델(2.7M 매개변수)에서 45% 가중치 희소성, 6.6% 비제로 가중치 밀도 및 압축 후 top-1 오차 8.50%(6.48%에서 증가)
- 하이퍼파라미터 최적화(Bayesian optimization via Spearmint)로 13개 설정 탐색, 정확도 손실과 압축률의 균형을 모색
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.