[논문 리뷰] Global Sparse Momentum SGD for Pruning Very Deep Neural Networks
GSM은 글로벌하게 업데이트할 매개변수의 고정된 수를 선택하고, 나머지는 모멘텀 기반 가중치 감소를 통해 0으로 밀어넣어 DNN을 엔드투엔드로 가지치기합니다. 재학습 없이 무손실 가지치기와 자동 층별 희소성 발견을 가능하게 합니다.
Deep Neural Network (DNN) is powerful but computationally expensive and memory intensive, thus impeding its practical usage on resource-constrained front-end devices. DNN pruning is an approach for deep model compression, which aims at eliminating some parameters with tolerable performance degradation. In this paper, we propose a novel momentum-SGD-based optimization method to reduce the network complexity by on-the-fly pruning. Concretely, given a global compression ratio, we categorize all the parameters into two parts at each training iteration which are updated using different rules. In this way, we gradually zero out the redundant parameters, as we update them using only the ordinary weight decay but no gradients derived from the objective function. As a departure from prior methods that require heavy human works to tune the layer-wise sparsity ratios, prune by solving complicated non-differentiable problems or finetune the model after pruning, our method is characterized by 1) global compression that automatically finds the appropriate per-layer sparsity ratios; 2) end-to-end training; 3) no need for a time-consuming re-training process after pruning; and 4) superior capability to find better winning tickets which have won the initialization lottery.
연구 동기 및 목표
- 리소스 제약 장치에서의 배포를 가능하게 하면서 정확도 손실을 크게 증가시키지 않도록 모델 압축을 모티브로 삼는다.
- 전역 압축 비율을 직접 제어하는 엔드투엔드 가지치기 방법을 개발한다.
- 층별 하이퍼파라미터 조정과 가지치기 후 재학습의 필요성을 제거한다.
- 학습 중 자동으로 층별 희소성 비율을 발견할 수 있게 한다.
- GSM이 강력한 우승 티켓을 찾고 깊은 네트워크에서 무손실 가지치기를 수행할 수 있음을 보여준다.
제안 방법
- 전역 압축 비율 C 및 Q = |Θ|/C를 사용하여 SGD 업데이트를 활성 부분과 비활성 부분으로 나눈다.
- 각 반복에서 1차 테일러 근사에 기반한 매개변수 중요도 지표 T(x,y,w) = |(∂L/∂w) w|를 계산한다.
- 활성으로 남길 상위-Q 매개변수를 (그레이디언트를 사용하여) 선택하고, 나머지는 가중치 감소만으로 비활성화한다.
- 마스크 B^(k)를 사용한 모멘텀 SGD를 적용하여 비활성 업데이트를 가능하게 하고 가지치기된 연결의 재활성화를 간헐적으로 수행한다.
- 명시적 미세조정 없이도 암묵적 재활성화와 많은 매개변수의 연속적 0으로의 축소를 허용한다.
- 학습 후 상위-Q 크기 매개변수를 유지함으로써 전역적으로 가지치기를 수행한다.
- GSM이 발견한 티켓과 크기가 같은 티켓과의 비교를 통해 증가된 우승 티켓을 증명한다.
실험 결과
연구 질문
- RQ1전 end-to-end 학습에서 글로벌 압축 비율을 직접 제어하여 정확도 손실 없이 높은 희소성을 달성할 수 있는가?
- RQ2모멘텀 기반의 두 부분 업데이트가 가지치기 속도, 정확도, 층별 희소성 분포에 어떤 영향을 미치는가?
- RQ3GSM은 가지치기 후 암묵적 연결 재활성화와 비용이 큰 재학습을 피하게 하는가?
- RQ4GSM이 발견한 우승 티켓이 크기 기반 가지치기로 얻은 것보다 더 효과적인가?
- RQ5GSM은 매우 깊은 네트워크(예: ResNet-50, DenseNet-40) 및 대형 데이터셋(ImageNet)을 효과적으로 가지치기 할 수 있는가?
주요 결과
- GSM은 상당한 압축을 달성하며(예: LeNet-5에서 최대 125배, CIFAR-10/ResNet-56/DenseNet-40에서 8–10배) 정확도 손실이 거의 없거나 없다.
- GSM은 층별 희소성을 자동으로 발견하고, 모듈러 하이퍼파라미터 튜닝 없이 층의 민감도에 맞춰 가지치기를 정렬한다.
- 모멘텀은 중복 매개변수의 0화 속도를 높여 희소성으로의 수렴을 가속한다.
- 학습 중 재활성화는 초기 가지치기 잘못에서 회복하도록 도와 정확도를 보존한다.
- GSM은 여러 실험에서 크기 기반 가지치기보다 강한 우승 티켓을 식별한다(예: LeNet-5, LeNet-300).
- GSM은 유사한 조건에서 ResNet-50 가지치기에 대해 이전 방법(L-OBS)보다 더 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.