[论文解读] The Unreasonable Effectiveness of Random Pruning: Return of the Most Naive Baseline for Sparse Training
这篇论文表明从头开始训练的随机剪枝子网可以达到或超过密集网络的性能,特别是在大模型中,并且可以提升 OoD 检测、不确定性估计以及对抗鲁棒性。
Random pruning is arguably the most naive way to attain sparsity in neural networks, but has been deemed uncompetitive by either post-training pruning or sparse training. In this paper, we focus on sparse training and highlight a perhaps counter-intuitive finding, that random pruning at initialization can be quite powerful for the sparse training of modern neural networks. Without any delicate pruning criteria or carefully pursued sparsity structures, we empirically demonstrate that sparsely training a randomly pruned network from scratch can match the performance of its dense equivalent. There are two key factors that contribute to this revival: (i) the network sizes matter: as the original dense networks grow wider and deeper, the performance of training a randomly pruned sparse network will quickly grow to matching that of its dense equivalent, even at high sparsity ratios; (ii) appropriate layer-wise sparsity ratios can be pre-chosen for sparse training, which shows to be another important performance booster. Simple as it looks, a randomly pruned subnetwork of Wide ResNet-50 can be sparsely trained to outperforming a dense Wide ResNet-50, on ImageNet. We also observed such randomly pruned networks outperform dense counterparts in other favorable aspects, such as out-of-distribution detection, uncertainty estimation, and adversarial robustness. Overall, our results strongly suggest there is larger-than-expected room for sparse training at scale, and the benefits of sparsity might be more universal beyond carefully designed pruning. Our source code can be found at https://github.com/VITA-Group/Random_Pruning.
研究动机与目标
- 在稀疏情形下保持性能的动机,同时降低计算成本和模型规模。
- 在不同架构、数据集和稀疏度水平上对随机剪枝进行系统评估。
- 研究网络规模和预定义的分层稀疏模式在从头开始的稀疏训练中的作用。
提出的方法
- 使用六种方案(Uniform、Uniform+、SNIP、GraSP、ERK、ERK+)预定义按层稀疏比。
- 对子网在目标稀疏度下进行随机剪枝以初始化,而不对掩模进行训练。
- 在 CIFAR 和 ImageNet 上从头训练稀疏子网,使用 SGD 和标准训练流程。
- 不仅评估预测准确性,还评估 OoD 检测、不确定性估计和对抗鲁棒性。
- 将随机剪枝与非随机剪枝标准(SNIP、GraSP)进行比较,并分析梯度流。
- 在适当时使用 ERK+ 强制在最后一层保持密集,以维持性能。
实验结果
研究问题
- RQ1从头训练的随机剪枝子网能否在多种架构和稀疏度下匹配或超越它们的密集对手?
- RQ2网络规模和分层稀疏模式如何影响随机剪枝在稀疏训练中的有效性?
- RQ3与密集模型相比,随机剪枝网络在 OoD 检测、不确定性估计和对抗鲁棒性方面是否有优势?
- RQ4不同的预定义稀疏方案(ERK、SNIP、GraSP、Uniform、ERK+)在稀疏训练中的实际表现有何差异?
- RQ5梯度流分析能揭示在稀疏训练中 SNIP 相对于基于 ERK 的稀疏化的好处吗?
主要发现
- 网络规模很重要:在随机剪枝下,小网络难以达到密集性能,而大网络很快就能达到,即使在高稀疏度下也是如此。
- 合适的按层稀疏比能提升性能,ERK 基于的模式有时能在 ImageNet 上达到或超过密集模型。
- ERK 基于的剪枝在多种情景下可以超越如 SNIP 或 GraSP 等复杂标准,即使没有数据驱动的剪枝信号。
- 在 CIFAR-10 上,随机剪枝网络显示出强大的不确定性估计和有竞争力的 OoD 性能,随着模型增大,鲁棒性提升。
- 在 ImageNet 上,较大模型的随机剪枝在 30-50% 稀疏度下达到密集水平的准确率,且在 OoD、不确定性和对抗鲁棒性方面有显著提升。
- 与密集基线相比,随机剪枝在模型规模增加时提供了有意义的效率提升和鲁棒性收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。