QUICK REVIEW

[논문 리뷰] Progressive DNN Compression: A Key to Achieve Ultra-High Weight Pruning and Quantization Rates using ADMM

Shaokai Ye, Xiaoyu Feng|arXiv (Cornell University)|2019. 03. 23.

Advanced Neural Network Applications인용 수 27

한 줄 요약

이 논문은 초당 정규화와 재학습을 통한 동적 정규화 및 마스킹을 적용한 ADMM 기반 점진적 DNN 압축 프레임워크를 제안하여 정확도 손실을 최소화하면서 초고속 가중치 프루닝 및 양자화를 달성한다. 반복적으로 ADMM를 적용하고 동적 정규화와 마스킹된 재학습을 통한 방법으로 LeNet-5에서 246× 프루닝을 달성하였으며, MNIST용 LeNet-5 및 CIFAR-10용 VGG-16에 대해 처음으로 손실 없는 완전 이진화 모델을 구현하였다. 또한 ResNet-50 및 ResNet-18에서 최신 기술 수준의 성능을 달성하였다.

ABSTRACT

Weight pruning and weight quantization are two important categories of DNN model compression. Prior work on these techniques are mainly based on heuristics. A recent work developed a systematic frame-work of DNN weight pruning using the advanced optimization technique ADMM (Alternating Direction Methods of Multipliers), achieving one of state-of-art in weight pruning results. In this work, we first extend such one-shot ADMM-based framework to guarantee solution feasibility and provide fast convergence rate, and generalize to weight quantization as well. We have further developed a multi-step, progressive DNN weight pruning and quantization framework, with dual benefits of (i) achieving further weight pruning/quantization thanks to the special property of ADMM regularization, and (ii) reducing the search space within each step. Extensive experimental results demonstrate the superior performance compared with prior work. Some highlights: (i) we achieve 246x,36x, and 8x weight pruning on LeNet-5, AlexNet, and ResNet-50 models, respectively, with (almost) zero accuracy loss; (ii) even a significant 61x weight pruning in AlexNet (ImageNet) results in only minor degradation in actual accuracy compared with prior work; (iii) we are among the first to derive notable weight pruning results for ResNet and MobileNet models; (iv) we derive the first lossless, fully binarized (for all layers) LeNet-5 for MNIST and VGG-16 for CIFAR-10; and (v) we derive the first fully binarized (for all layers) ResNet for ImageNet with reasonable accuracy loss.

연구 동기 및 목표

일회성 ADMM 기반 DNN 프루닝의 한계를 극복하기 위해, 해의 타당성 부족 및 최적의 프루닝 비율 미달 문제를 해결한다.
ADMM 기반 최적화를 가중치 양자화로 확장하여, 프루닝과 양자화를 통합한 일관된 프레임워크를 제공한다.
검색 공간을 줄이고 초고속 압축 비율을 달성할 수 있도록, 점진적 다단계 압축 전략을 개발한다.
ResNet 및 MobileNet과 같은 도전적인 모델에 대해 손실 없음 또는 거의 손실 없는 압축을 달성한다.
MNIST, CIFAR-10, ImageNet에 대해 경쟁력 있는 정확도를 유지하면서 처음으로 완전 이진화된 종단 간 DNN 모델을 실현한다.

제안 방법

해의 타당성을 보장하고 수렴성을 향상시키기 위해 동적 ADMM 정규화와 재학습을 통한 마스킹 매핑을 도입한다.
ADMM 수렴 속도를 향상시키고 해의 품질을 개선하기 위해 다중-ρ 업데이트를 통합한다.
통합 최적화 과정 내에서 가중치 프루닝과 양자화를 동시에 처리할 수 있도록 ADMM 프레임워크를 일반화한다.
각 단계에서 이전 결과를 초기화로 사용하는 점진적 압축 파이프라인을 설계하여 검색 공간을 줄이고 더 깊은 압축을 가능하게 한다.
L2 기반 ADMM 정규화를 적용하여 반복적인 정밀 조정을 통해 더 높은 프루닝 및 양자화 비율을 향해 향상시킬 수 있도록 한다.
하이퍼파rameter를 철저히 튜닝하고 정확도와 압축 비율을 균형 있게 유지하기 위한 단계별 압축 스케줄을 설계한다.

실험 결과

연구 질문

RQ1ADMM 기반 DNN 압축이 일회성 프루닝에서 해의 타당성을 보장하고 수렴성을 향상시킬 수 있는가?
RQ2ADMM 프레임워크가 통합 최적화 프레임워크 내에서 가중치 프루닝과 양자화를 동시에 지원할 수 있는가?
RQ3ADMM 정규화를 활용한 점진적 다단계 압축 전략이 일회성 방법보다 훨씬 높은 프루닝 및 양자화 비율을 달성할 수 있는가?
RQ4LeNet-5 및 ResNet-50와 같은 표준 DNN에서 초고속 압축 비율(예: 100× 이상)을 거의 정확도 손실 없이 달성할 수 있는가?
RQ5특히 ImageNet용 복잡한 모델인 ResNet에서 완전 이진화된 DNN(모든 레이어)를 최소한의 정확도 저하로 달성할 수 있는가?

주요 결과

제안된 점진적 ADMM 프레임워크는 LeNet-5(MNIST)에서 246× 가중치 프루닝을 달성하였으며, 기준 모델과 동일한 99.2% 정확도를 유지하였고, 이는 이전의 일회성 ADMM(71.2×) 및 확장된 일회성 방법(85×)을 뛰어넘었다.
ImageNet용 AlexNet에서는 61× 프루닝을 달성하였으며, 정확도 저하가 미미하여 이전의 작업에 비해 압축 비율과 안정성 면에서 뚜렷한 우수성을 보였다.
MNIST용 첫 번째 손실 없는 완전 이진화 LeNet-5 모델이 달성되었으며, 모든 레이어에서 99.21% 정확도를 유지하였다.
CIFAR-10용 첫 번째 손실 없는 완전 이진화 VGG-16 모델이 구현되었으며, 93.53%의 정확도를 달성하여 이전 방법보다 10个百分点 이상 뛰어났다.
ImageNet용 첫 번째 완전 이진화 ResNet-18 모델이 달성되었으며, Top-5 정확도 손실은 5.8%에 그쳤다. 이는 종단 간 딥 리텐셔널 네트워크의 완전 이진화에서 중요한 전환점이 되었다.
이 프레임워크는 AlexNet과 ResNet-50에서 각각 36× 및 8×의 프루닝을 거의 정확도 손실 없이 달성하였으며, 더 깊은 모델로의 확장성을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.