[论文解读] ADAM-ADMM: A Unified, Systematic Framework of Structured Weight Pruning for DNNs.
ADAM-ADMM 提出了一种统一、系统化的 DNN 结构化剪枝框架,结合自适应矩估计与 ADMM,动态更新正则化目标,实现高达 13.2× 的压缩率和高达 7.5× 的 GPU 加速,且准确率无损失或仅有适度下降,在 AlexNet 上 33% 剪枝率下准确率提升 1.64%。
Weight pruning methods of deep neural networks (DNNs) have been demonstrated to achieve a good model pruning ratio without loss of accuracy, thereby alleviating the significant computation/storage requirements of large-scale DNNs. Structured weight pruning methods have been proposed to overcome the limitation of irregular network structure and demonstrated actual GPU acceleration. However, the pruning ratio (degree of sparsity) and GPU acceleration are limited (to less than 50%) when accuracy needs to be maintained. In this work, we overcome pruning ratio and GPU acceleration limitations by proposing a unified, systematic framework of structured weight pruning for DNNs, named ADAM-ADMM (Adaptive Moment Estimation-Alternating Direction Method of Multipliers). It is a framework that can be used to induce different types of structured sparsity, such as filter-wise, channel-wise, and shape-wise sparsity, as well non-structured sparsity. The proposed framework incorporates stochastic gradient descent with ADMM, and can be understood as a dynamic regularization method in which the regularization target is analytically updated in each iteration. A significant improvement in weight pruning ratio is achieved without loss of accuracy, along with fast convergence rate. With a small sparsity degree of 33% on the convolutional layers, we achieve 1.64% accuracy enhancement for the AlexNet (CaffeNet) model. This is obtained by mitigation of overfitting. Without loss of accuracy on the AlexNet model, we achieve 2.6 times and 3.65 times average measured speedup on two GPUs, clearly outperforming the prior work. The average speedups reach 2.77 times and 7.5 times when allowing a moderate accuracy loss of 2%. In this case the model compression for convolutional layers is 13.2 times, corresponding to 10.5 times CPU speedup. Our models and codes are released at https://github.com/KaiqiZhang/ADAM-ADMM
研究动机与目标
- 解决现有结构化剪枝方法剪枝率低于 50%、GPU 加速有限且难以保持准确率的局限性。
- 开发一种系统化框架,能够在单一统一方法中诱导多种类型的结构化稀疏性——包括滤波器级、通道级、形状级及非结构化稀疏性。
- 通过实现高剪枝率、快速收敛和最小准确率下降,克服模型压缩、推理速度与准确率之间的权衡。
- 通过确保与现代硬件上高效内核执行兼容的结构化稀疏性,实现剪枝模型的实际 GPU 加速。
提出的方法
- 将随机梯度下降(SGD)与交替方向乘子法(ADMM)结合,构建用于结构化权重剪枝的混合优化框架。
- 通过分析方法在每次迭代中基于自适应矩估计动态更新正则化目标,引入自适应正则化,实现动态稀疏性诱导。
- 将剪枝问题建模为带约束的优化任务,通过 ADMM 强制执行稀疏性,同时迭代更新对偶变量和增广拉格朗日项。
- 通过 ADMM 框架中灵活的约束设计,支持多种稀疏模式(滤波器级、通道级、形状级、非结构化)。
- 在 ADMM 中采用惩罚参数的预热策略,以提升训练过程中的收敛性和稳定性。
- 利用结构化稀疏性实现高效的 GPU 内核执行,显著提升现代 GPU 架构上的推理速度。
实验结果
研究问题
- RQ1统一框架是否能在保持或提升模型准确率的同时,诱导多种类型的结构化稀疏性(如滤波器级、通道级、形状级)?
- RQ2将自适应矩估计与 ADMM 结合,对结构化剪枝中的收敛速度和最终模型性能有何影响?
- RQ3所提方法在标准 DNN(如 AlexNet)上能否实现高稀疏率(例如 10× 或以上)而不会损害模型准确率?
- RQ4与先前最先进的结构化剪枝方法相比,所生成的剪枝模型在 GPU 推理中能实现多大程度的加速?
- RQ5该框架如何缓解高稀疏度下的过拟合问题,尤其是在剪枝过程中?
主要发现
- 在 AlexNet(CaffeNet)模型的卷积层上,33% 稀疏度下,ADAM-ADMM 实现了 1.64% 的准确率提升,归因于过拟合的缓解。
- 在无任何准确率损失的情况下,该框架在两种不同的 GPU 配置下分别实现了平均 2.6× 和 3.65× 的 GPU 加速,优于先前工作。
- 在允许 2% 准确率下降的条件下,平均 GPU 加速分别提升至 2.77× 和 7.5×,展现出强大的可扩展性。
- 卷积层的模型压缩率达到 13.2×,对应 CPU 推理速度提升 10.5×,凸显了剪枝模型的实际高效性。
- 该框架成功在一个统一框架内诱导了多种类型的结构化稀疏性——包括滤波器级、通道级、形状级及非结构化稀疏性。
- 基于自适应矩估计的动态正则化机制,实现了快速收敛和剪枝过程中的稳定优化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。