[논문 리뷰] Non-Structured DNN Weight Pruning -- Is It Beneficial in Any Platform?
이 논문은 DNN에서 구조적 가중치 프루닝과 양자화를 위한 통합 프레임워크인 ADMM-NN-S를 제안하며, 구현에 관계없이 공정한 비교를 통해 양자화가 적용될 경우 비구조적 프루닝이 구조적 프루닝보다 유리한 점이 없음을 입증한다. 주요 발견은 비구조적 프루닝이 저장소나 계산 효율성 측면에서 유리하지 않으며, 하드웨어 가속화된 추론에서는 피해야 할 것이다.
Large deep neural network (DNN) models pose the key challenge to energy efficiency due to the significantly higher energy consumption of off-chip DRAM accesses than arithmetic or SRAM operations. It motivates the intensive research on model compression with two main approaches. Weight pruning leverages the redundancy in the number of weights and can be performed in a non-structured, which has higher flexibility and pruning rate but incurs index accesses due to irregular weights, or structured manner, which preserves the full matrix structure with lower pruning rate. Weight quantization leverages the redundancy in the number of bits in weights. Compared to pruning, quantization is much more hardware-friendly, and has become a "must-do" step for FPGA and ASIC implementations. This paper provides a definitive answer to the question for the first time. First, we build ADMM-NN-S by extending and enhancing ADMM-NN, a recently proposed joint weight pruning and quantization framework. Second, we develop a methodology for fair and fundamental comparison of non-structured and structured pruning in terms of both storage and computation efficiency. Our results show that ADMM-NN-S consistently outperforms the prior art: (i) it achieves 348x, 36x, and 8x overall weight pruning on LeNet-5, AlexNet, and ResNet-50, respectively, with (almost) zero accuracy loss; (ii) we demonstrate the first fully binarized (for all layers) DNNs can be lossless in accuracy in many cases. These results provide a strong baseline and credibility of our study. Based on the proposed comparison framework, with the same accuracy and quantization, the results show that non-structrued pruning is not competitive in terms of both storage and computation efficiency. Thus, we conclude that non-structured pruning is considered harmful. We urge the community not to continue the DNN inference acceleration for non-structured sparsity.
연구 동기 및 목표
- DNN 추론에서 가중치 양자화와 결합할 때 비구조적 프루닝과 구조적 프루닝 중 어느 것이 더 유리한지에 대한 열린 질문을 해결하기 위해.
- 비구조적 프루닝과 구조적 프루닝 간의 저장소 및 계산 효율성 비교를 위한 공정하고 구현에 관계없는 방법론을 개발하기 위해.
- 비구조적 프루닝이 양자화 조건 하에서 구조적 프루닝보다 유리한 점이 없음을 입증하기 위해, 특히 FPGA 및 ASIC 같은 하드웨어 플랫폼에서.
- ADMM-NN-S를 사용한 통합 프루닝 및 양자화를 위한 강력한 베이스라인을 수립하여 높은 압축률을 달성하면서 정확도 손실가장 최소화하기 위해.
- DNN 연구 공동체가 추론 가속화를 위한 비구조적 희소성에 대한 노력 중단을 권고하기 위해.
제안 방법
- ADMM-NN에 구조적 프루닝을 위한 알고리즘적 지원을 추가하여, 교대 방식의 다중수단(ADMM)을 통한 프루닝과 양자화의 동시 최적화를 가능하게 하였다.
- 통합 프루닝 및 양자화 학습 중 수렴성과 안정성을 향상하기 위해 동적 ADMM 조정 기법을 도입하였다.
- 모델 정확도를 유지하기 위해 마스크 매핑 및 재학습을 구현하여 성능 저하를 최소화하였다.
- 하드웨어 특성에 의존하지 않는 저장소 오버헤드(인덱스 저장소 포함)와 계산 효율성을 별도로 측정할 수 있는 비교 프레임워크를 설계하였다.
- 일반화성을 확보하기 위해 다양한 모델(Lenet-5, AlexNet, ResNet-50, VGGNet, MobileNet)과 여러 데이터셋(MNIST, CIFAR-10, ImageNet)에 프레임워크를 적용하였다.
- 3비트, 4비트, 8비트 양자화 수준을 사용하여 정밀도가 프루닝 효율성과 정확도에 미치는 영향을 평가하였다.
실험 결과
연구 질문
- RQ1DNN 추론에서 가중치 양자화와 함께 비구조적 프루닝이 저장소 및 계산 효율성 측면에서 유리한가?
- RQ2동일한 양자화 수준에서 구조적 프루닝과 비구조적 프루닝은 압축 비율, 정확도, 하드웨어 효율성 측면에서 어떻게 비교되는가?
- RQ3ADMM-NN-S를 통한 통합 프루닝 및 양자화가 다양한 DNN 아키텍처에서 최신 기술 수준의 성능을 달성하면서 정확도 손실가 거의 없는가?
- RQ4특히 가중치가 저비트 폭으로 양자화될 경우, 비구조적 프루닝의 인덱스 저장소 오버헤드는 어떤 영향을 미치는가?
- RQ5이행 학습 및 대비 설정에서 비구조적 프루닝에 비해 구조적 프루닝이 더 높은 모델 일반성과 강건성을 유지하는가?
주요 결과
- ADMM-NN-S는 LeNet-5, AlexNet, ResNet-50에서 각각 348×, 36×, 8×의 전체 가중치 프루닝을 달성하였으며, 양자화와 결합했을 때 거의 정확도 손실가 없었다.
- 이 프레임워크는 여러 사례에서 모든 레이어가 이진화된 최초의 완전한 DNN를 구현하여, 통합 프루닝 및 양자화의 효과를 입증하였다.
- 비구조적 프루닝은 저장소 효율성 측면에서 경쟁력이 없으며, 특히 저비트 폭에서 인덱스 저장소 오버헤드(348× 프루닝 시 1인덱스당 최소 9비트)가 가중치 저장소를 초과한다.
- 비구조적 프루닝은 불규칙한 메모리 액세스 패턴과 스펙트럼 연산에 대한 하드웨어 지원 부족으로 인해 계산 효율성도 열 劣하다.
- 동일한 정확도 및 양자화 조건 하에서 비구조적 프루닝에 비해 구조적 프루닝이 항상 저장소 및 계산 효율성 측면에서 뛰어나다.
- 본 연구는 비구조적 프루닝이 해로우며, 특히 FPGA, ASIC, GPU, CPU 플랫폼에서 DNN 추론 가속화를 위한 목적으로는 추구되어서는 안 된다고 결론 내렸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.