[论文解读] Rigging the Lottery: Making All Tickets Winners
RigL 在训练过程中通过动态更新拓扑,使用基于幅度的丢弃和梯度引导的增长,在固定计算预算下实现比先前的密集到稀疏方法更高的准确性。
Many applications require sparse neural networks due to space or inference time restrictions. There is a large body of work on training dense networks to yield sparse networks for inference, but this limits the size of the largest trainable sparse model to that of the largest trainable dense model. In this paper we introduce a method to train sparse neural networks with a fixed parameter count and a fixed computational cost throughout training, without sacrificing accuracy relative to existing dense-to-sparse training methods. Our method updates the topology of the sparse network during training by using parameter magnitudes and infrequent gradient calculations. We show that this approach requires fewer floating-point operations (FLOPs) to achieve a given level of accuracy compared to prior techniques. We demonstrate state-of-the-art sparse training results on a variety of networks and datasets, including ResNet-50, MobileNets on Imagenet-2012, and RNNs on WikiText-103. Finally, we provide some insights into why allowing the topology to change during the optimization can overcome local minima encountered when the topology remains static. Code used in our work can be found in github.com/google-research/rigl.
研究动机与目标
- 为在严格资源约束下部署,推动高效的稀疏神经网络的研究。
- 开发一种在保持固定参数数量和FLOP预算的同时提高准确性的训练算法。
- 研究训练过程中拓扑演化如何帮助摆脱局部最小值并提升优化效果。
提出的方法
- 从一个具有固定稀疏度分布的随机稀疏网络开始。
- 定期丢弃最小幅度的连接,并使用高梯度信息生长新连接。
- 生长决策基于 inactive 连接中的前k梯度,以最小化损失增加。
- 使用一个将总FLOPs固定为网络密度成比例的计划,并允许通过稀疏度分布(Uniform、ERK、ERK-Kernel)来选择FLOPs。
- 将RigL与先前的稀疏训练方法和从密集到稀疏的基线在视觉任务(ResNet-50、MobileNets)和语言任务(WikiText-103)上进行对比。
实验结果
研究问题
- RQ1在固定参数预算下,能否训练出稀疏网络并超越密集到稀疏的方法?
- RQ2在训练过程中允许拓扑变化是否能相对于静态稀疏或随机生长改善优化与最终准确性?
- RQ3在给定FLOP预算的前提下,哪些稀疏度分布和更新计划能在不同架构和任务上最大化准确性?
- RQ4与基于幅度剪枝的方法相比,RigL 在计算效率和最终性能方面表现如何?
主要发现
- 在与相同或更低的训练FLOPs 相比下,RigL 在 ImageNet-2012 的 ResNet-50 和 MobileNets 上达到比之前的密集到稀疏方法更高的准确性。
- 在 ERK 稀疏度下,RigL 在 ResNet-50 上以 96.5% 稀疏度达到 72.75% 的 Top-1,优于先前工作中的扩展幅度剪枝。
- RigL 在多个稀疏度水平和数据集上优于 Static、SET、SNFS、SNIP 及部分剪枝基线,且通常具有显著更少的FLOPs。
- 动态连通性(基于梯度的增长)有助于摆脱静态稀疏训练所遇到的局部极小值,从而改善损失景观和最终准确性。
- RigL 使得在相同参数预算下训练显著更宽的稀疏模型(Big-Sparse)成为可能,并带来对密集基线的显著性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。