[논문 리뷰] Progressive Weight Pruning of Deep Neural Networks using ADMM
이 논문은 초고도 희박성과 최소한의 정확도 손실을 달성하기 위해 ADMM를 사용한 점진적 가중치 프루닝 프레임워크를 제안한다. 반복적으로 중간 정도의 프루닝 비율을 적용하고 마스크된 재학습을 수행함으로써 수렴 문제와 정확도 저하를 해결하며, ImageNet에서는 최대 34×, MNIST에서는 167×의 프루닝을 달성하여 기존 방법들에 비해 압도적으로 높은 압축 비율과 수렴 속도를 확보한다.
Deep neural networks (DNNs) although achieving human-level performance in many domains, have very large model size that hinders their broader applications on edge computing devices. Extensive research work have been conducted on DNN model compression or pruning. However, most of the previous work took heuristic approaches. This work proposes a progressive weight pruning approach based on ADMM (Alternating Direction Method of Multipliers), a powerful technique to deal with non-convex optimization problems with potentially combinatorial constraints. Motivated by dynamic programming, the proposed method reaches extremely high pruning rate by using partial prunings with moderate pruning rates. Therefore, it resolves the accuracy degradation and long convergence time problems when pursuing extremely high pruning ratios. It achieves up to 34 times pruning rate for ImageNet dataset and 167 times pruning rate for MNIST dataset, significantly higher than those reached by the literature work. Under the same number of epochs, the proposed method also achieves faster convergence and higher compression rates. The codes and pruned DNN models are released in the link bit.ly/2zxdlss
연구 동기 및 목표
- 초고도 프루닝 비율을 달성하면서도 정확도가 크게 떨어지지 않는 DNN의 과제를 해결하기 위해.
- 초고도 희박성 수준에서 직접 ADMM 기반 프루닝을 수행할 경우 발생하는 장기적인 수렴 시간과 정확도 저하 문제를 극복하기 위해.
- 안정적이고 효율적인 모델 압축을 위해 동적 프로그래밍 원리를 활용하는 확장 가능한 점진적 프루닝 프레임워크를 개발하기 위해.
- 모델 성능을 유지하면서 최대한의 희박성을 확보함으로써 엣지 디바이스에서 압축된 DNN의 실용적 구현을 가능하게 하기 위해.
- 더 큰 압축을 위해 통합된 ADMM 프레임워크 내에서 가중치 프루닝과 양자화를 조합할 수 있는 가능성을 입증하기 위해.
제안 방법
- 단일한 공격적인 프루닝 단계가 아니라 여러 차례의 부분적 프루닝을 적용하는 점진적 프루닝 전략을 사용한다.
- 조합 제약 조건이 있는 가중치 프루닝의 비볼록 최적화 문제를 해결하기 위해 ADMM(교차 방향 다중승수 방법)를 사용한다.
- 각 프루닝 단계 이후에 정확도 복구를 위해 마스크된 재학습을 수행하며, 여기서는 프루닝된 가중치는 0으로 고정하고 나머지 가중치는 미세조정한다.
- 동적 프로그래밍에 영감을 받아 중간 해를 활용해 후속 프루닝 단계를 안내함으로써 수렴성과 안정성을 향상시킨다.
- 이 프레임워크는 비구조적 및 구조적 희박성 모두를 지원하며, 추가적인 압축을 위해 가중치 양자화를 통합할 수 있다.
- 이 방법은 Caffe와 TensorFlow 모두에 구현되었으며, 코드와 프루닝된 모델이 공개되었다.
실험 결과
연구 질문
- RQ1ADMM 기반 프루닝은 초고도 희박성에서 정확도 손실이 크지 않게 DNN에 적용될 수 있는가?
- RQ2수렴 속도와 정확도 유지 측면에서 점진적 프루닝은 단일 단계의 직접 ADMM 프루닝에 비해 어떻게 비교되는가?
- RQ3최적화 기반 접근법을 사용할 경우, AlexNet과 LeNet-5와 같은 표준 DNN의 최대 프루닝 비율은 얼마인가?
- RQ4점진적 ADMM 프레임워크는 가중치 양자화와 효과적으로 조합되어 모델 크기를 더 줄일 수 있는가?
- RQ5이 방법은 오직 합성곱 층으로 이루어진 아키텍처를 포함한 다양한 DNN 아키텍처에서 높은 성능을 유지하는가?
주요 결과
- 제안된 점진적 ADMM 프루닝 방법은 ImageNet 데이터셋에서 정확도 손실이 거의 없는 상태로 최대 34×의 프루닝 비율을 달성한다.
- MNIST 데이터셋의 경우 기록적인 167× 프루닝 비율을 달성하여 기존 연구를 크게 뛰어넘는다.
- 같은 학습 에포크 수에서, 이 방법은 반복적 프루닝과 직접 ADMM 프루닝보다 수렴 속도가 더 빠르고 더 높은 압축 비율을 달성한다.
- 양자화와 조합할 경우, LeNet-5에서는 총 모델 저장 용량을 1,910×로 압축할 수 있었으며, 완전 연결 층은 2비트, 합성곱 층은 3비트로 설정했고 정확도는 99.0%를 유지했다.
- 인덱스 저장 오버헤드를 고려한 결과 전체 압축 비율은 여전히 623×로 유지되었으며, 이는 기존 방법들보다 크게 높은 비율이다.
- 이 프레임워크는 합성곱 층으로 구성된 모델을 포함한 다양한 DNN 아키텍처에서 효과적이며, 히우리스틱 및 정규화 기반 접근법보다 뛰어난 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.