[论文解读] Pruning neural networks without any data by iteratively conserving synaptic flow
本文提出一种与数据无关的剪枝方法迭代突触流剪枝(SynFlow),能够避免层级崩溃并实现最大关键压缩,在多个模型和数据集上与基于数据的剪枝基线相匹配或超越。
Pruning the parameters of deep neural networks has generated intense interest due to potential savings in time, memory and energy both during training and at test time. Recent works have identified, through an expensive sequence of training and pruning cycles, the existence of winning lottery tickets or sparse trainable subnetworks at initialization. This raises a foundational question: can we identify highly sparse trainable subnetworks at initialization, without ever training, or indeed without ever looking at the data? We provide an affirmative answer to this question through theory driven algorithm design. We first mathematically formulate and experimentally verify a conservation law that explains why existing gradient-based pruning algorithms at initialization suffer from layer-collapse, the premature pruning of an entire layer rendering a network untrainable. This theory also elucidates how layer-collapse can be entirely avoided, motivating a novel pruning algorithm Iterative Synaptic Flow Pruning (SynFlow). This algorithm can be interpreted as preserving the total flow of synaptic strengths through the network at initialization subject to a sparsity constraint. Notably, this algorithm makes no reference to the training data and consistently competes with or outperforms existing state-of-the-art pruning algorithms at initialization over a range of models (VGG and ResNet), datasets (CIFAR-10/100 and Tiny ImageNet), and sparsity constraints (up to 99.99 percent). Thus our data-agnostic pruning algorithm challenges the existing paradigm that, at initialization, data must be used to quantify which synapses are important.
研究动机与目标
- 解释基于初始化的剪枝中的层崩溃失败模式。
- 建立对突触显著性的神经元级和网络级守恒定律。
- 开发一种数据无关的剪枝算法,保证最大关键压缩。
- 证明 SynFlow 在多种模型和数据集上与最先进的数据相关剪枝方法相匹配或超越。
提出的方法
- 将突触显著性形式化为 S(θ) = ∂R/∂θ ⊙ θ 并证明守恒定律(神经元级和网络级)。
- 证明平均层分数与层大小成反比缩放,解释基于梯度的单次剪枝中的层崩溃。
- 引入带有数据无关损失 R_SF = 1^T (∏_l |θ^[l]|) 1 的迭代突触流剪枝(SynFlow),从而产生正的显著性分数。
- 证明迭代的、正向的、保守的分数实现层级守恒从而满足最大关键压缩(定理 3)。
- 给出一个包含迭代掩码和指数剪枝计划的算法以避免层崩溃(不需要数据)。
- 在 12 对模型-数据集上对 SynFlow 与随机、幅度剪枝、SNIP 和 GraSP 进行经验基准测试,在高压缩情形下显示出最前沿的性能。
实验结果
研究问题
- RQ1是否可以在初始化时在不进行训练或使用数据的情况下识别出高度稀疏的可训练子网?
- RQ2数据驱动的单次剪枝中层崩溃的原因是什么,能否避免?
- RQ3一种数据无关的剪枝方法是否能够实现最大关键压缩,并在不同架构和数据集上与数据相关方法相媲美?
- RQ4守恒定律如何支配深度网络中的突触显著性与剪枝动态?
主要发现
- SynFlow 在高压缩情形下持续优于基线,并在测试的模型和数据集上避免层崩溃。
- SynFlow 通过构造实现最大关键压缩,在全局掩码和迭代评估下。
- 守恒定律(神经元级和网络级)解释了为什么基于梯度的分数更早偏向剪枝大层以及迭代如何缓解。
- 迭代幅度剪枝避免层崩溃,梯度下降动力使分数趋向于层级守恒模式。
- 在若干设置下,使用 SynFlow 的数据无关剪枝可以匹配甚至超过像 SNIP 和 GraSP 这样的数据相关剪枝方法,对初始化阶段是否需要训练数据提出挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。