Skip to main content
QUICK REVIEW

[论文解读] Dynamic Model Pruning with Feedback

Tao Lin, Sebastian U. Stich|arXiv (Cornell University)|Jun 12, 2020
Advanced Neural Network Applications参考文献 47被引用 87
一句话总结

DPF 引入带误差反馈的动态剪枝,在一次训练中训练稀疏网络,同时维护一个密集模型以纠正剪枝错误,在 CIFAR-10 和 ImageNet 上在不对稀疏模型重训练的情况下达到最先进的结果。

ABSTRACT

Deep neural networks often have millions of parameters. This can hinder their deployment to low-end devices, not only due to high memory requirements but also because of increased latency at inference. We propose a novel model compression method that generates a sparse trained model without additional overhead: by allowing (i) dynamic allocation of the sparsity pattern and (ii) incorporating feedback signal to reactivate prematurely pruned weights we obtain a performant sparse model in one single training pass (retraining is not needed, but can further improve the performance). We evaluate our method on CIFAR-10 and ImageNet, and show that the obtained sparse models can reach the state-of-the-art performance of dense models. Moreover, their performance surpasses that of models generated by all previously proposed pruning schemes.

研究动机与目标

  • 促使模型压缩以便在低端设备上部署,而不需要过度再训练。
  • 开发一种动态剪枝方法,能同时维护一个密集模型和一个剪枝模型以纠正剪枝错误。
  • 在 CIFAR-10 和 ImageNet 上获得具有最先进准确度的稀疏网络。
  • 提供在所提方案下对凸与非凸目标的理论收敛分析。

提出的方法

  • 提出带反馈的动态剪枝(DPF),其中梯度在被剪枝的权重上计算,但应用于完整的密集权重向量。
  • 使用误差反馈机制,允许在训练过程中重新激活之前剪枝的权重。
  • 模型剪枝通过将掩码 m_t 作用于 w_t 来执行,得到 Ѱtilde{w}_t = m_t  w_t,更新为 w_{t+1} = w_t - gamma_t g(m_t Ѱw_t)。
  • 显示等价关系 w_{t+1} = w_t - gamma_t g(w_t + e_t) 其中 e_t = Ѱtilde{w}_t - w_t,与误差反馈 SGD 相联系。
  • 在假设光滑性和随机梯度有界的前提下,为凸(强凸)和非凸目标提供收敛性保证。
  • 将分析扩展到除了掩模之外的其他压缩算子,例如量化,在同一 delta_t 框架内。

实验结果

研究问题

  • RQ1带误差反馈的动态剪枝是否能够在大规模数据集上实现高稀疏性而不显著降低准确率?
  • RQ2在训练过程中同时维护一个密集模型并对剪枝模型计算得到的梯度,是否能提升泛化并实现对过早剪枝的恢复?
  • RQ3在标准优化假设下,DPF 对凸与非凸目标的收敛性质是什么?
  • RQ4与现有的剪枝方案(一锤子剪枝、增量剪枝、动态剪枝)在 CIFAR-10 和 ImageNet 等数据集上相比,DPF 的表现如何?

主要发现

  • DPF 在稀疏感知剪枝方面达到最先进的性能,优于在 CIFAR-10 和 ImageNet 上的现有动态和静态剪枝方法。
  • DPF 即使在很高的稀疏度下(在报告的实验中约为 99%)也能保持可用的精度于大模型。
  • 该方法显示剪枝掩码在训练过程中收敛,接近尾部仅有极少数权重仍在变化。
  • 与 lottery ticket 风格的剪枝相比,DPF 找到了有效的稀疏网络,而不需要从头开始训练或大量微调,且在极高的稀疏度下表现尤为出色。
  • 理论结果在提出的误差反馈剪枝方案下对凸和非凸目标提供非渐进收敛性保证。
  • 实验在 CIFAR-10 和 ImageNet 上对 SNIP、Incremental pruning、DSR 和 Sparse Momentum 的提升具有一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。