[论文解读] Structured Pruning of Deep Convolutional Neural Networks
本文提出了一种针对深度卷积神经网络的结构化剪枝方法,通过在通道、卷积核及核内步长三个层级强制实现稀疏性,以实现在嵌入式和并行系统上的高效计算。利用粒子滤波评估连接重要性,并通过微调恢复精度,该方法在减少模型大小和内存访问的同时,支持定点量化以实现芯片级部署,且精度损失最小。
Real time application of deep learning algorithms is often hindered by high computational complexity and frequent memory accesses. Network pruning is a promising technique to solve this problem. However, pruning usually results in irregular network connections that not only demand extra representation efforts but also do not fit well on parallel computation. We introduce structured sparsity at various scales for convolutional neural networks, which are channel wise, kernel wise and intra kernel strided sparsity. This structured sparsity is very advantageous for direct computational resource savings on embedded computers, parallel computing environments and hardware based systems. To decide the importance of network connections and paths, the proposed method uses a particle filtering approach. The importance weight of each particle is assigned by computing the misclassification rate with corresponding connectivity pattern. The pruned network is re-trained to compensate for the losses due to pruning. While implementing convolutions as matrix products, we particularly show that intra kernel strided sparsity with a simple constraint can significantly reduce the size of kernel and feature map matrices. The pruned network is finally fixed point optimized with reduced word length precision. This results in significant reduction in the total storage size providing advantages for on-chip memory based implementations of deep neural networks.
研究动机与目标
- 解决深度学习在实时嵌入式应用中对高计算与内存需求的问题。
- 克服非结构化剪枝的局限性,后者会产生不规则连接,不适合硬件加速。
- 开发一种结构化稀疏性框架,使并行与嵌入式架构能够直接获得计算节省。
- 集成粒子滤波以估计连接重要性,并通过微调缓解剪枝后的精度下降。
- 通过利用结构化稀疏性实现更低字长的定点优化,以提升芯片内内存效率。
提出的方法
- 在三个层级引入结构化稀疏性:通道级、卷积核级以及核内步长级稀疏性,以保持硬件效率所需的规则性。
- 采用粒子滤波方法,其中每个粒子代表一种连接模式,其重要性由该模式下的误分类率决定。
- 根据分类性能为粒子分配重要性权重,从而选择最关键的连接。
- 基于粒子重要性进行连接剪枝,仅保留最关键的滤波器和特征图元素。
- 对剪枝后的网络进行微调,以恢复剪枝过程中损失的精度,确保与原始模型性能相当。
- 在剪枝后应用低字长定点量化,利用结构化稀疏性最小化精度损失。
实验结果
研究问题
- RQ1在多个层级(通道、卷积核、核内)实施结构化稀疏性是否能在不牺牲模型精度的前提下提升计算效率?
- RQ2粒子滤波如何有效用于剪枝过程中网络连接重要性的估计?
- RQ3结构化剪枝在多大程度上可实现高效的定点量化以支持芯片级部署?
- RQ4与非结构化剪枝相比,结构化剪枝在内存访问和硬件兼容性方面表现如何?
- RQ5在结合微调应用结构化剪枝时,模型压缩与精度损失之间的权衡关系如何?
主要发现
- 所提出的结构化剪枝方法在保持高精度的同时实现了显著的模型压缩,微调后性能下降极小。
- 核内步长稀疏性结合简单约束,可大幅减少卷积核和特征图矩阵的大小。
- 剪枝后的网络可有效支持低字长定点量化,显著降低芯片内内存需求。
- 由于具有规则且结构化的稀疏模式,该方法可在并行与嵌入式系统上实现高效计算。
- 基于粒子滤波的重要性估计方法能有效识别关键连接,从而生成高精度且紧凑的模型。
- 该方法表现出强大的硬件兼容性,适用于资源受限设备的部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。