[论文解读] Non-Structured DNN Weight Pruning -- Is It Beneficial in Any Platform?
本文提出 ADMM-NN-S 框架,用于在 DNN 中联合进行结构化剪枝与量化,通过一项公平、与实现无关的对比实验表明,当应用量化时,非结构化剪枝在性能上并不优于结构化剪枝。关键发现是:在存储或计算效率方面,非结构化剪枝并无优势,因此在硬件加速推理中应避免使用。
Large deep neural network (DNN) models pose the key challenge to energy efficiency due to the significantly higher energy consumption of off-chip DRAM accesses than arithmetic or SRAM operations. It motivates the intensive research on model compression with two main approaches. Weight pruning leverages the redundancy in the number of weights and can be performed in a non-structured, which has higher flexibility and pruning rate but incurs index accesses due to irregular weights, or structured manner, which preserves the full matrix structure with lower pruning rate. Weight quantization leverages the redundancy in the number of bits in weights. Compared to pruning, quantization is much more hardware-friendly, and has become a "must-do" step for FPGA and ASIC implementations. This paper provides a definitive answer to the question for the first time. First, we build ADMM-NN-S by extending and enhancing ADMM-NN, a recently proposed joint weight pruning and quantization framework. Second, we develop a methodology for fair and fundamental comparison of non-structured and structured pruning in terms of both storage and computation efficiency. Our results show that ADMM-NN-S consistently outperforms the prior art: (i) it achieves 348x, 36x, and 8x overall weight pruning on LeNet-5, AlexNet, and ResNet-50, respectively, with (almost) zero accuracy loss; (ii) we demonstrate the first fully binarized (for all layers) DNNs can be lossless in accuracy in many cases. These results provide a strong baseline and credibility of our study. Based on the proposed comparison framework, with the same accuracy and quantization, the results show that non-structrued pruning is not competitive in terms of both storage and computation efficiency. Thus, we conclude that non-structured pruning is considered harmful. We urge the community not to continue the DNN inference acceleration for non-structured sparsity.
研究动机与目标
- 解决在 DNN 推理中结合权重量化时,非结构化剪枝与结构化剪枝何者更具优势的开放性问题。
- 开发一种公平、与实现无关的方法论,用于比较非结构化剪枝与结构化剪枝在存储与计算效率方面的表现。
- 证明在量化条件下,非结构化剪枝在存储或计算效率方面并不优于结构化剪枝,尤其在 FPGA 和 ASIC 等硬件平台中更为明显。
- 通过 ADMM-NN-S 建立联合剪枝与量化的强基线,实现高精度压缩且精度损失接近于零。
- 建议 DNN 研究社区停止在推理加速方面对非结构化稀疏性的研究投入。
提出的方法
- 扩展 ADMM-NN,增加对结构化剪枝的算法支持,通过交替方向乘子法(ADMM)实现剪枝与量化的联合优化。
- 引入动态 ADMM 调节机制,以提升联合剪枝与量化训练过程中的收敛性与稳定性。
- 实施掩码映射与微调策略,以在剪枝后保持模型精度,确保性能下降最小化。
- 设计一种对比框架,独立于硬件特定细节,隔离并测量存储开销(包括索引存储)与计算效率。
- 将该框架应用于多种模型(LeNet-5、AlexNet、ResNet-50、VGGNet)与多个数据集(MNIST、CIFAR-10、ImageNet),以确保结果的泛化能力。
- 采用 3 位、4 位与 8 位量化级别,评估精度对剪枝效率与准确率的影响。
实验结果
研究问题
- RQ1在 DNN 推理中,当结合权重量化时,非结构化剪枝在存储与计算效率方面是否具有优势?
- RQ2在相同量化级别下,结构化剪枝与非结构化剪枝在压缩比、准确率与硬件效率方面有何差异?
- RQ3通过 ADMM-NN-S 实现的联合剪枝与量化能否在多种 DNN 架构上实现 SOTA 水平,且精度损失接近于零?
- RQ4索引存储开销对非结构化剪枝有何影响,尤其是在权重被量化至低比特宽度时?
- RQ5在迁移学习与对抗性设置下,结构化剪枝是否比非结构化剪枝展现出更好的模型泛化性与鲁棒性?
主要发现
- ADMM-NN-S 在 LeNet-5、AlexNet 与 ResNet-50 上分别实现了 348×、36× 与 8× 的整体权重剪枝,结合量化后精度损失几乎为零。
- 该框架首次实现了完全二值化的 DNN(所有层),在多种情况下保持无损精度,凸显了联合剪枝与量化的有效性。
- 非结构化剪枝在存储效率方面不具备竞争力:索引存储开销(348× 剪枝时每索引 ≥9 位)超过权重存储开销,尤其在低比特宽度下更为显著。
- 由于不规则内存访问模式且缺乏对稀疏操作的硬件支持,非结构化剪枝在计算效率方面也表现更差。
- 在相同精度与量化条件下,结构化剪枝在存储与计算效率方面始终优于非结构化剪枝。
- 本研究结论为:非结构化剪枝具有破坏性,不应在 DNN 推理加速中继续推进,尤其在 FPGA、ASIC、GPU 与 CPU 平台中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。