Skip to main content
QUICK REVIEW

[论文解读] StructADMM: A Systematic, High-Efficiency Framework of Structured Weight Pruning for DNNs

Tianyun Zhang, Shaokai Ye|arXiv (Cornell University)|Jul 29, 2018
Advanced Neural Network Applications参考文献 11被引用 30
一句话总结

本文提出 StructADMM,一种基于交替方向乘子法(ADMM)与动态正则化的统一、系统化框架,用于深度神经网络(DNNs)中的结构化权重重剪枝。该方法在滤波器级、通道级和形状级等多种剪枝模式下实现了高精度、高剪枝率的结构化稀疏性,使在 NVIDIA 1080Ti 上实现 3.65× 的 GPU 加速,在 ResNet-50 上实现 15× 模型压缩与 11.93× 的 CPU 加速,显著优于先前工作。

ABSTRACT

Weight pruning methods of DNNs have been demonstrated to achieve a good model pruning rate without loss of accuracy, thereby alleviating the significant computation/storage requirements of large-scale DNNs. Structured weight pruning methods have been proposed to overcome the limitation of irregular network structure and demonstrated actual GPU acceleration. However, in prior work the pruning rate (degree of sparsity) and GPU acceleration are limited (to less than 50%) when accuracy needs to be maintained. In this work,we overcome these limitations by proposing a unified, systematic framework of structured weight pruning for DNNs. It is a framework that can be used to induce different types of structured sparsity, such as filter-wise, channel-wise, and shape-wise sparsity, as well non-structured sparsity. The proposed framework incorporates stochastic gradient descent with ADMM, and can be understood as a dynamic regularization method in which the regularization target is analytically updated in each iteration. Without loss of accuracy on the AlexNet model, we achieve 2.58X and 3.65X average measured speedup on two GPUs, clearly outperforming the prior work. The average speedups reach 3.15X and 8.52X when allowing a moderate ac-curacy loss of 2%. In this case the model compression for convolutional layers is 15.0X, corresponding to 11.93X measured CPU speedup. Our experiments on ResNet model and on other data sets like UCF101 and CIFAR-10 demonstrate the consistently higher performance of our framework.

研究动机与目标

  • 解决先前结构化剪枝方法存在的局限性,如剪枝率低(例如 <50%)且 GPU 加速有限,同时保持模型精度。
  • 开发一种统一框架,可同时诱导多种类型的结构化稀疏性——滤波器级、通道级、形状级——并支持非结构化稀疏性。
  • 通过系统化、基于优化的方法实现高精度、高压缩率的 DNN 模型,确保解的可行性与快速收敛。
  • 在模型压缩、GPU 和 CPU 推理加速性能方面,以及在多种模型与数据集上的泛化能力方面,展示优越的实际表现。

提出的方法

  • 该框架将随机梯度下降与 ADMM 相结合,通过在每次迭代中使用解析更新规则动态调整正则化目标,实现对稀疏性约束的自适应调节。
  • 将结构化稀疏性建模为组合约束,利用 ADMM 在处理此类约束方面的优势,同时保证解的可行性。
  • 方法包含掩码映射与微调步骤,以优化剪枝后的模型,确保剪枝后仍保持高精度。
  • 通过在 ADMM 框架内定义适当的稀疏性诱导约束,支持多种稀疏性模式——滤波器级、通道级、形状级。
  • 该方法可同时实现结构化与非结构化剪枝,且使用相同的优化流程,从而构成统一的框架。
  • 框架通过高效稀疏矩阵运算实现,并在真实硬件(NVIDIA 1080Ti、Jetson TX2、Intel i7-6700K)上进行评估,以测量实际加速效果。

实验结果

研究问题

  • RQ1一个统一框架是否能在多种稀疏性模式(滤波器级、通道级、形状级)下实现高精度的结构化权重重剪枝?
  • RQ2基于 ADMM 的优化方法结合动态正则化,是否能实现比启发式正则化方法更高的剪枝率与更快的收敛速度?
  • RQ3结构化剪枝是否能在保持或提升模型精度的同时,实现显著的 GPU 和 CPU 加速?
  • RQ4在允许适度精度损失的前提下,该方法与先前工作相比,在剪枝率与加速效果方面表现如何?

主要发现

  • 在 AlexNet 上,不损失精度时,StructADMM 在 NVIDIA 1080Ti 和 Jetson TX2 上分别实现 2.58× 和 3.65× 的实测 GPU 加速,优于先前工作的 49% 加速。
  • 在 2% 精度损失下,框架在 GPU 上实现 3.15× 和 8.52× 的加速,卷积层实现 15.0× 模型压缩,对应 11.93× CPU 加速。
  • 在 ResNet-50 上,该方法实现 2× 结构化剪枝且精度损失为 0%,3× 剪枝时精度损失为 0.9%,展现出强大的泛化能力。
  • 在 AlexNet 的非结构化剪枝中,该方法在 conv2-conv5 层实现 16.1× 压缩且无精度损失,优于 Han 等人(2015)和 Guo 等人(2016)的方法。
  • 即使在 40.5× 的非结构化剪枝下,TX2 上的 GPU 加速仍低于 2×,且在 1080Ti 上进一步下降,证实不规则稀疏性无法带来实际加速。
  • 在所有最先进方法中,该框架在 AlexNet 和 VGG-16 上实现了最高的整体非结构化压缩率,且无精度损失。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。