[论文解读] Sparse Networks from Scratch: Faster Training without Losing Performance
本文提出稀疏动量,直接从随机初始化训练完全稀疏的网络,在 CIFAR-10 上实现密集性能并且训练速度提升高达 5.61x,在 ImageNet 上也具有竞争力的结果。
We demonstrate the possibility of what we call sparse learning: accelerated training of deep neural networks that maintain sparse weights throughout training while achieving dense performance levels. We accomplish this by developing sparse momentum, an algorithm which uses exponentially smoothed gradients (momentum) to identify layers and weights which reduce the error efficiently. Sparse momentum redistributes pruned weights across layers according to the mean momentum magnitude of each layer. Within a layer, sparse momentum grows weights according to the momentum magnitude of zero-valued weights. We demonstrate state-of-the-art sparse performance on MNIST, CIFAR-10, and ImageNet, decreasing the mean error by a relative 8%, 15%, and 6% compared to other sparse algorithms. Furthermore, we show that sparse momentum reliably reproduces dense performance levels while providing up to 5.61x faster training. In our analysis, ablations show that the benefits of momentum redistribution and growth increase with the depth and size of the network. Additionally, we find that sparse momentum is insensitive to the choice of its hyperparameters suggesting that sparse momentum is robust and easy to use.
研究动机与目标
- 将稀疏学习作为加速训练而不牺牲准确性的动机。
- 开发并验证一种实用算法(稀疏动量),在整个训练过程中保持稀疏性。
- 在 MNIST、CIFAR-10 和 ImageNet 上展示最先进的稀疏性能。
- 量化加速并分析对超参数和网络深度的鲁棒性。
提出的方法
- 使用指数平滑梯度(动量)来衡量层级和权重的效率。
- 在每个训练轮后剪除一部分幅值最小的权重。
- 按层的平均动量幅值比例分配被剪除的权重到其他层。
- 在缺失的连接中以最高动量幅值增长新权重。
- 在数据集上与压缩和其他稀疏训练方法进行比较。
- 在密集基线下评估以评估保留密集性能的能力并计算加速。
实验结果
研究问题
- RQ1从随机初始化训练的稀疏网络是否能够实现密集性能而无需再训练?
- RQ2基于动量的重新分配与增长是否在网络深度和规模增大时提升学习效率与准确性?
- RQ3在 MNIST、CIFAR-10 和 ImageNet 上达到与密集性能相匹配所需的加速和权重要求是什么?
- RQ4稀疏动量对剪枝率和动量超参数的鲁棒性如何?
主要发现
| 模型 | 密集误差(%) | SNIP | 动量 | 权重(%) |
|---|---|---|---|---|
| AlexNet-s | 12.95 ± 0.056 | 14.99 | 14.27 ± 0.123 | 10 |
| AlexNet-b | 12.85 ± 0.068 | 14.50 | 13.56 ± 0.094 | 10 |
| VGG16-C | 6.49 ± 0.038 | 7.27 | 7.00 ± 0.054 | 5 |
| VGG16-D | 6.59 ± 0.050 | 7.09 | 6.69 ± 0.049 | 5 |
| VGG16-like | 6.50 ± 0.054 | 8.00 | 7.00 ± 0.077 | 3 |
| WRN-16-8 | 4.57 ± 0.022 | 6.63 | 5.62 ± 0.056 | 5 |
| WRN-16-10 | 4.45 ± 0.040 | 6.43 | 5.24 ± 0.052 | 5 |
| WRN-22-8 | 4.26 ± 0.032 | 5.85 | 4.93 ± 0.056 | 5 |
- 稀疏动量在 MNIST、CIFAR-10 和 ImageNet 上实现了与密集相当的性能,但使用的权重显著更少(例如多种模型为 5–10%)。
- 在 CIFAR-10 上,稀疏性使稀疏卷积实现 2.74x–5.61x 的加速(WRN 最多达到 5.61x)。
- 对于 ImageNet,稀疏动量在与若干稀疏基线相比具有更好 Top-1 精度,10–20% 的权重即可获得有竞争力的结果。
- 随着网络深度增加,动量重新分配和增长变得更加关键(如 ImageNet 的 ResNet-50)。
- 该方法对剪枝率(0.2–0.5)和动量值(0.7–0.9)具有鲁棒性,且需要的超参数调优很少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。