[论文解读] Pruning neural networks: is it time to nip it in the bud?
本文通过表明从零开始训练的小型网络(简称缩减网络)在性能上始终优于通过从大型预训练模型中移除连接而得到的剪枝网络,挑战了神经网络剪枝的有效性。作者证明,当重新训练时,剪枝架构的性能显著更具竞争力,且缩减网络在推理速度上更快,这表明通过剪枝进行网络架构设计可能比迭代剪枝与微调更有效。
Pruning is a popular method for compressing a neural network: given a large trained network, one alternates between removing connections and fine-tuning; reducing the overall width of the network. However, the efficacy of network pruning has largely evaded scrutiny. In this paper, we examine ResNets and DenseNets obtained through pruning-and-tuning and make two interesting observations: (i) reduced networks---smaller versions of the original network trained from scratch---consistently outperform pruned networks; (ii) if you take the architecture of a pruned network and then train it from scratch it is significantly more competitive. Furthermore, these architectures are easy to approximate: we can prune once and obtain a whole family of new, scalable network architectures that can simply be trained from scratch. Finally, we compare the inference speed of reduced and pruned networks on hardware, and show that reduced networks are significantly faster.
研究动机与目标
- 评估神经网络剪枝在实际应用中的有效性,特别是针对ResNets和DenseNets。
- 比较剪枝网络与从零开始训练的小型网络(即缩减网络)的性能表现。
- 探究剪枝网络的架构在从零开始重新训练后是否能获得更优性能。
- 评估缩减网络与剪枝网络在硬件上的推理速度。
- 探索剪枝是否可用于生成可扩展、高效的网络架构。
提出的方法
- 从零开始训练ResNets和DenseNets的较小版本(即缩减网络)作为对比基线。
- 对大型预训练网络应用迭代剪枝与微调,生成剪枝模型。
- 采用剪枝网络的架构,并从零开始重新训练以评估其性能。
- 将剪枝后的架构作为蓝图,生成一系列可扩展的网络架构家族。
- 在硬件上测量并比较缩减网络与剪枝网络的推理速度。
- 分析通过剪枝获得的模型与直接从零开始训练的模型在性能和效率上的差异。
实验结果
研究问题
- RQ1剪枝网络是否始终在性能上逊于从零开始训练的小型网络?
- RQ2当剪枝网络的架构从零开始重新训练后,其性能是否显著优于原始剪枝模型?
- RQ3在真实硬件上,缩减网络的推理速度是否明显快于剪枝网络?
- RQ4能否利用单一剪枝架构生成一系列可扩展、高效的网络设计?
- RQ5迭代剪枝与微调过程是否产生准确率更低且推理更慢的模型,相较于直接从零开始训练?
主要发现
- 从零开始训练的缩减网络在准确率上始终优于剪枝网络。
- 将剪枝网络的架构从零开始重新训练后,其性能显著优于原始剪枝模型。
- 通过简单重新训练,剪枝架构可用于生成一系列可扩展的网络架构。
- 在硬件上,缩减网络的推理速度显著快于剪枝网络。
- 在ResNets和DenseNets等不同网络类型中,剪枝网络与缩减网络之间的性能差距保持一致。
- 剪枝与微调可能并非模型压缩的最有效方法,因为直接训练小型架构能获得更优结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。