[论文解读] Winning the Lottery with Continuous Sparsification
本文提出 Continuous Sparsification,一种确定性、基于 L0 正则化的剪枝方法,在训练过程中持续对网络进行稀疏化,并实现对稀疏子网络的并行 tickets 搜索;在从早期迭代重新训练后,稀疏子网络的性能可与或超越密集模型。在 CIFAR-10(VGG-16、ResNet-20)和 ImageNet(ResNet-50)上优于现有的剪枝和 tickets 搜索方法。
The search for efficient, sparse deep neural network models is most prominently performed by pruning: training a dense, overparameterized network and removing parameters, usually via following a manually-crafted heuristic. Additionally, the recent Lottery Ticket Hypothesis conjectures that, for a typically-sized neural network, it is possible to find small sub-networks which, when trained from scratch on a comparable budget, match the performance of the original dense counterpart. We revisit fundamental aspects of pruning algorithms, pointing out missing ingredients in previous approaches, and develop a method, Continuous Sparsification, which searches for sparse networks based on a novel approximation of an intractable $\ell_0$ regularization. We compare against dominant heuristic-based methods on pruning as well as ticket search -- finding sparse subnetworks that can be successfully re-trained from an early iterate. Empirical results show that we surpass the state-of-the-art for both objectives, across models and datasets, including VGG trained on CIFAR-10 and ResNet-50 trained on ImageNet. In addition to setting a new standard for pruning, Continuous Sparsification also offers fast parallel ticket search, opening doors to new applications of the Lottery Ticket Hypothesis.
研究动机与目标
- 通过解决现有基于 L0 的方法的不足来激发剪枝与 Lottery Ticket 假设的研究。
- 开发一个确定性、连续放松的 L0 正则化以学习稀疏掩码。
- 展示 Continuous Sparsification 在标准基准测试上优于启发式剪枝和先前的 L0 方法。
- 证明高效、可并行的 tickets 搜索能够产生高度稀疏、性能出色的子网络。
提出的方法
- 将剪枝表述为一个 L0 正则化目标,并将二进制掩码重新参数化为一个确定性、具有温度控制的 sigmoid 代理函数。
- 使用一个连续路径 beta (β) 逐步使掩码从软门转为二值门。
- 在训练过程中最小化 L(f(...; sigmoid(βs) ⊙ w)) + λ ||sigmoid(βs)||1,其中 β 在训练期间进行退火。
- 在 rounds 之间重置并重新初始化 masking 参数,以实现持续剪枝而不回退权重。
- 最终输出一个二进制掩码 m = H(s),在需要时保证零一稀疏性。
- 通过运行多轮 β 重置为 1、在轮次之间重复利用/调整保留的权重来应用 tickets 搜索(无完全回 rewinding)。
实验结果
研究问题
- RQ1一个 L0 正则化的形式是否能够在没有启发式剪枝的情况下得到具有竞争力的稀疏子网络?
- RQ2确定性、连续放松是否提升子网络的稀疏性、训练稳定性和可重训练性,相较于随机的 L0 方法?
- RQ3Continuous Sparsification 是否能够实现快速、并行发现在实践中优于 Iterative Magnitude Pruning (IMP) 的 winning tickets?
主要发现
- Continuous Sparsification 产生的子网络在重新训练后,在 CIFAR-10 和 ImageNet 的高稀疏度水平下,其精度等同或超过密集模型。
- CS 产生的最稀疏且匹配的子网络能够比 IMP/IMP-C 更稀疏且更准确。
- CS 在裁剪并保持 VGG-16 和 ResNet-20 的 CIFAR-10 精度方面达到最新的稀疏性,并在 ResNet-50/ImageNet 上取得具有竞争力的结果。
- tickets-search 与 CS 结合时,在某些情况下能够找到显著稀疏且性能超越密集模型的子网络,提升约 1% 左右。
- 当并行运行时,CS 相较于串行的 IMP 运行,大幅降低生成多个 tickets 所需的总训练轮次(如在报道的 CIFAR-10 实验中为 425 轮对比 2550 轮)。
- CS 在剪枝和 tickets 搜索任务中优于先前的随机 L0 方法及其他剪枝方法,为稀疏-精度权衡设定了新基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。