QUICK REVIEW

[论文解读] Hybrid Pruning: Thinner Sparse Networks for Fast Inference on Edge Devices

Xiaofan Xu, Mi Sun Park|arXiv (Cornell University)|Nov 1, 2018

Advanced Neural Network Applications参考文献 11被引用 28

一句话总结

本文提出了一种混合剪枝方法，结合粗粒度通道剪枝与细粒度权重剪枝，以创建更薄、更稀疏的神经网络，实现在边缘设备上的高效推理。通过引入一种快速敏感性测试，根据精度容忍度和硬件约束（如通道数为8的倍数）确定各层特定的剪枝阈值，该方法实现了最先进性能——在ImageNet上将ResNet50的参数量减少72.9%，top-1精度仅下降0.88%，同时在ResNet56上实现了4.5倍的加速，精度损失极小。

ABSTRACT

We introduce hybrid pruning which combines both coarse-grained channel and fine-grained weight pruning to reduce model size, computation and power demands with no to little loss in accuracy for enabling modern networks deployment on resource-constrained devices, such as always-on security cameras and drones. Additionally, to effectively perform channel pruning, we propose a fast sensitivity test that helps us quickly identify the sensitivity of within and across layers of a network to the output accuracy for target multiplier accumulators (MACs) or accuracy tolerance. Our experiment shows significantly better results on ResNet50 on ImageNet compared to existing work, even with an additional constraint of channels be hardware-friendly number.

研究动机与目标

为解决在无人机和始终在线摄像头等资源受限边缘设备上部署大型、高精度深度神经网络（DNNs）的挑战。
克服现有剪枝方法对各层统一剪枝的局限性，此类方法常因各层敏感度差异导致显著精度下降。
开发一种快速、轻量级的敏感性测试，用于在无需额外训练的前提下，基于用户定义的精度容忍度或目标MACs，识别各层特定的剪枝极限。
通过强制通道数为8或4的倍数，实现硬件友好的稀疏性，提升与边缘加速器的兼容性。
证明结合多粒度稀疏性（通道剪枝与权重剪枝）能显著减少模型大小与计算量，同时保持极低的精度损失。

提出的方法

提出一种快速敏感性测试，通过基于权重绝对值之和迭代掩码输出通道，评估每层对剪枝的容忍度，当精度下降超过阈值（例如比原始精度低3–5%）时停止。
利用敏感性测试计算各层的剪枝比例，以在用户定义的精度容忍范围内保留精度，随后四舍五入至硬件友好的通道数（如8的倍数）。
在剪枝后的更薄模型上应用基于统计的权重剪枝，通过基于权重均值与标准差计算各层阈值，并引入全局稀疏性控制因子σ。
在训练过程中动态更新二值掩码，以在前向传播中稀疏化权重，同时保持反向传播的全精度梯度。
采用两阶段流水线集成通道剪枝与权重剪枝：首先通过敏感性测试进行通道剪枝，然后在得到的稀疏模型上进行权重剪枝。
支持任意深度学习框架，且无需元学习或为新模型进行额外训练，具有广泛的可部署性。

实验结果

研究问题

RQ1将粗粒度通道剪枝与细粒度权重剪枝相结合，是否能显著减少边缘设备上的模型大小与计算量，同时保持极低的精度损失？
RQ2如何在无需大量重训练或硬件特定调优的前提下，高效测量各层对剪枝的敏感度？
RQ3在强制采用硬件友好的通道数（如8的倍数）的条件下，模型压缩与精度保持之间的最优平衡是什么？
RQ4与单粒度剪枝相比，多粒度稀疏性（同时实现通道与权重稀疏）在压缩率与推理速度方面是否更具优势？
RQ5一种快速、非迭代的敏感性测试能否可靠预测在给定精度容忍度下，每层可安全剪枝的最大比例？

主要发现

在ImageNet上的ResNet50上，所提出的混合剪枝方法将参数量减少了72.9%（从25.5M降至6.9M），top-1精度仅下降0.88%（从76.01%降至74.32%）。
该方法实现了MACs减少2倍、参数量减少3.7倍，优于ThiNet、NISP和SPP等先前工作，在压缩率与精度方面均表现更优。
在CIFAR-10上的ResNet56上，仅通过通道剪枝实现了59%的稀疏度（2.4倍加速），而采用混合剪枝后稀疏度达78%（参数量减少4.5倍），且top-1精度损失小于1%。
敏感性测试在CPU上仅耗时8.86分钟，在GPU上仅需3.38秒，无需额外训练即可实现快速模型分析，具备实际应用可行性。
发现输出通道数增加的层（如过渡层或残差块）对剪枝更为敏感，证实了采用分层感知剪枝策略的必要性。
混合剪枝方法在通道数为硬件友好倍数的更薄ResNet50上实现了最先进性能，验证了多粒度稀疏性的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。