Skip to main content
QUICK REVIEW

[论文解读] The State of Sparsity in Deep Neural Networks

Trevor Gale, Erich Elsen|arXiv (Cornell University)|Feb 25, 2019
Machine Learning and Data Classification参考文献 31被引用 439
一句话总结

本论文在 Transformer (WMT 2014 En-De) 和 ResNet-50 (ImageNet) 上评估三种稀疏化方法,结果发现幅值裁剪常常等同于或优于更复杂的方法,为 ResNet-50 的幅值裁剪设定了新的稀疏-精度基准。

ABSTRACT

We rigorously evaluate three state-of-the-art techniques for inducing sparsity in deep neural networks on two large-scale learning tasks: Transformer trained on WMT 2014 English-to-German, and ResNet-50 trained on ImageNet. Across thousands of experiments, we demonstrate that complex techniques (Molchanov et al., 2017; Louizos et al., 2017b) shown to yield high compression rates on smaller datasets perform inconsistently, and that simple magnitude pruning approaches achieve comparable or better results. Additionally, we replicate the experiments performed by (Frankle & Carbin, 2018) and (Liu et al., 2018) at scale and show that unstructured sparse architectures learned through pruning cannot be trained from scratch to the same test set performance as a model trained with joint sparsification and optimization. Together, these results highlight the need for large-scale benchmarks in the field of model compression. We open-source our code, top performing model checkpoints, and results of all hyperparameter configurations to establish rigorous baselines for future work on compression and sparsification.

研究动机与目标

  • 评估变分 dropout、l0 正则化和幅值裁剪在大规模模型上的有效性。
  • 比较 Transformer 与 ResNet-50 的稀疏-精度权衡。
  • 探究在规模化下裁剪引入的稀疏性是否能够从头训练(lottery tickets)?
  • 提供开源代码、检查点和超参数结果以建立基线。

提出的方法

  • 在 Transformer (WMT 2014 En-De) 和 ResNet-50 (ImageNet) 上评估三种稀疏化技术(变分 dropout、l0 正则化、幅值裁剪)。
  • 包括一个随机裁剪基线用于下界比较。
  • 分析逐层稀疏性分布以理解非均匀稀疏模式。
  • 重复 lottery ticket 和 scratch 实验,以测试用学习到的稀疏结构从头训练。

实验结果

研究问题

  • RQ1在大规模任务上,复杂的稀疏化技术是否优于幅值裁剪?
  • RQ2跨层的稀疏分布如何影响压缩-精度权衡?
  • RQ3通过裁剪学习的稀疏架构是否可以从头训练以匹配联合训练的稀疏模型?
  • RQ4稀疏性对训练时间和资源使用的影响?
  • RQ5在尺度上,Transformer 与 ResNet-50 的结果是否一致?

主要发现

  • 在高稀疏水平下,幅值裁剪的结果与更复杂的稀疏技术相当甚至更好。
  • l0 正则化在 Transformer 上表现良好,但在 ResNet-50 上表现不佳。
  • 变分 dropout 能在保持较高稀疏的同时保持较好精度,但需要更多内存,在某些稀疏度范围表现不佳。
  • 通过幅值裁剪,ResNet-50 达到了新的最先进稀疏-精度权衡。
  • 通过裁剪学习的非结构化稀疏架构无法从头训练以达到与联合训练的稀疏模型在尺度上的匹配。
  • 开源代码、检查点和超参数作为基线提供。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。