[论文解读] Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask
本文对 Lottery Ticket (LT) 框架进行了消融研究,显示掩码标准、掩码-1 符号处理,以及掩码-0 冻结均会影响 LT 性能,并引入 Supermasks——未经训练的掩码也能实现强劲性能。
The recent "Lottery Ticket Hypothesis" paper by Frankle & Carbin showed that a simple approach to creating sparse networks (keeping the large weights) results in models that are trainable from scratch, but only when starting from the same initial weights. The performance of these networks often exceeds the performance of the non-sparse base model, but for reasons that were not well understood. In this paper we study the three critical components of the Lottery Ticket (LT) algorithm, showing that each may be varied significantly without impacting the overall results. Ablating these factors leads to new insights for why LT networks perform as well as they do. We show why setting weights to zero is important, how signs are all you need to make the reinitialized network train, and why masking behaves like training. Finally, we discover the existence of Supermasks, masks that can be applied to an untrained, randomly initialized network to produce a model with performance far better than chance (86% on MNIST, 41% on CIFAR-10).
研究动机与目标
- 评估 LT 组件变体(掩码标准、mask-1 行为、mask-0 行为)如何影响剪枝-训练动态。
- 确定零化与冻结被剪枝权重对 LT 性能的驱动作用。
- 测试掩码操作是否可视为隐式训练过程,以及未训练的掩码是否能实现高于随机水平的性能(Supermasks)。
- 评估初始权重符号是否关键,以及权重幅值如何影响 LT 子网络。
提出的方法
- 将掩码定义为函数 M(w_i, w_f),探索九种掩码标准(如 large_final、magnitude_increase、movement 等等)。
- 在 MNIST(FC)与 CIFAR-10(Conv2、Conv4、Conv6)上对 LT 框架进行迭代剪枝。
- 通过回放到初始值、重新排列,或使用常量来评估 mask-1 行动中符号的作用。
- 通过在零、初始化时冻结权重,或使用基于幅值变化的条件零化规则来评估 mask-0 行动。
- 通过对未训练、随机初始化的网络应用掩码并测量性能来实验 Supermasks。
- 通过对 Supermasks 进行训练,采用带有随机伯努利门控映射到二进制掩码值的掩码并应用动态权重重新缩放(DWR)来优化。
实验结果
研究问题
- RQ1不同掩码标准 M(w_i, w_f) 如何在不同架构和剪枝率下影响 LT 性能?
- RQ2在重新初始化保留权重时,保持初始权重符号是否是影响 LT 可训练性的关键因素?
- RQ3被剪枝为零的权重是否与在初始化时冻结的权重有不同的贡献,掩码是否可以被视为训练?
- RQ4应用于未训练网络的掩码是否能够带来高于随机水平的性能(Supermasks),并且学习到的掩码是否能逼近全网络的准确率?
- RQ5动态权重重新缩放(DWR)是否提升 Supermask 的性能并使被掩码的网络更接近全训练网络?
主要发现
| Network | Init mask accuracy | Signed-constant init accuracy | Init+Learned mask accuracy | Learned mask accuracy (S.C.) | Learned mask accuracy (DWR) | Trained network accuracy |
|---|---|---|---|---|---|---|
| MNIST FC | 79.3 | 86.3 | 95.3 | 96.4 | 97.8 | 97.7 |
| CIFAR Conv2 | 22.3 | 37.4 | 64.4 | 66.3 | 65.0 | 69.2 |
| CIFAR Conv4 | 23.7 | 39.7 | 65.4 | 66.2 | 71.7 | 75.4 |
| CIFAR Conv6 | 24.0 | 41.0 | 65.3 | 65.4 | 76.3 | 78.3 |
- 多种掩码标准(不仅仅是 large_final)可以达到或超过 LT 的性能;magnitude_increase 与 large_final 在若干网络中表现最佳。
- 在重新初始化的变体中,保持被保留权重的符号对 LT 的可训练性至关重要;保持符号可使性能接近回撤(rewinding)水平。
- 零化被剪枝权重重要;在零初始化时冻结的表现优于在初始化时冻结,且与幅值变化相关的条件零化规则可提升结果。
- 掩码行为类似训练操作,被剪枝权重通过向零的移动来贡献;将权重设为零的掩码通常受益。
- 存在 Supermasks:经过精心选择的掩码作用于未训练网络可在 MNIST 上超过随机水平的表现(约40% 左右),在 CIFAR-10 上可达约24%。
- 学习到的掩码结合动态权重重新缩放(DWR)在多数据集上实现接近全网络的性能(例如 MNIST FC 约 97.7% 训练/测试精度;CIFAR-10 Conv6 约 78.3%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。