Skip to main content
QUICK REVIEW

[论文解读] A Signal Propagation Perspective for Pruning Neural Networks at Initialization

Namhoon Lee, Thalaiyasingam Ajanthan|arXiv (Cornell University)|Jun 14, 2019
Advanced Neural Network Applications参考文献 15被引用 19
一句话总结

本文从信号传播的角度出发,解释并改进了在初始化阶段进行神经网络剪枝的方法,表明层间动态等距性——即层雅可比矩阵的奇异值接近1——可确保可靠的连接敏感度测量。通过一种无需数据的方法在剪枝网络中强制实现正交性,该方法显著提升了训练性能与泛化能力,即使在极端稀疏度下也优于密集基线模型。

ABSTRACT

Network pruning is a promising avenue for compressing deep neural networks. A typical approach to pruning starts by training a model and then removing redundant parameters while minimizing the impact on what is learned. Alternatively, a recent approach shows that pruning can be done at initialization prior to training, based on a saliency criterion called connection sensitivity. However, it remains unclear exactly why pruning an untrained, randomly initialized neural network is effective. In this work, by noting connection sensitivity as a form of gradient, we formally characterize initialization conditions to ensure reliable connection sensitivity measurements, which in turn yields effective pruning results. Moreover, we analyze the signal propagation properties of the resulting pruned networks and introduce a simple, data-free method to improve their trainability. Our modifications to the existing pruning at initialization method lead to improved results on all tested network models for image classification tasks. Furthermore, we empirically study the effect of supervision for pruning and demonstrate that our signal propagation perspective, combined with unsupervised pruning, can be useful in various scenarios where pruning is applied to non-standard arbitrarily-designed architectures.

研究动机与目标

  • 理解为何在随机权重初始化下对神经网络进行剪枝仍有效。
  • 形式化连接敏感度(用作剪枝标准)可被可靠测量的理论条件。
  • 通过分析和恢复信号传播特性,提升剪枝后稀疏网络的可训练性。
  • 探究是否可使用无监督代理损失实现无监督剪枝。
  • 探索是否可通过初始化阶段的剪枝实现神经架构塑形——即发现优于标准结构的稀疏架构。

提出的方法

  • 将连接敏感度形式化为基于梯度的度量,并识别其可靠性取决于信号传播的保真度。
  • 引入层间动态等距性作为连接敏感度可靠性的充分条件,其定义为层雅可比矩阵的奇异值集中于1附近。
  • 提出一种无需数据的两阶段方法:首先基于连接敏感度进行剪枝,然后通过强制实现层间正交性来恢复信号传播。
  • 将该方法应用于多种架构(如ResNet、宽残差网络),并在图像分类任务上评估性能。
  • 使用无监督代理损失(如自编码器损失)计算连接敏感度,无需标签,从而实现无监督剪枝。
  • 通过剪枝更大、任意设计的网络以匹配基础密集模型的参数量,开展神经架构塑形实验,随后比较测试准确率。

实验结果

研究问题

  • RQ1为何在初始化阶段剪枝在随机初始化下仍有效?何种条件可确保连接敏感度的可靠性?
  • RQ2剪枝网络中的信号传播如何影响其可训练性?该特性在剪枝后能否被恢复?
  • RQ3是否可使用无监督代理损失实现有效的无监督剪枝?
  • RQ4是否可通过初始化阶段的剪枝发现优于相同参数量标准密集模型的稀疏架构?
  • RQ5在剪枝过程中保持动态等距性在多大程度上能提升泛化能力和训练稳定性?

主要发现

  • 层间动态等距性——即所有层雅可比矩阵的奇异值均接近1——是初始化阶段剪枝中实现可靠连接敏感度测量的充分条件。
  • 剪枝会破坏动态等距性,导致信号传播退化,降低稀疏网络的可训练性,这解释了未经修改的剪枝方法性能较差的原因。
  • 所提出的无数据正交性恢复方法显著提升了剪枝网络的训练性能与泛化能力。
  • 在CIFAR-10上,与基础密集ResNet20模型参数量相同的剪枝稀疏网络实现了更低的泛化误差(例如4.8% vs. 5.2%),表现出更优性能。
  • 使用代理损失(如自编码器损失)的无监督剪枝在极端稀疏度下(如剪枝率达98.4%)仍能达到与有监督剪枝相当的准确率。
  • 通过初始化阶段剪枝实现的神经架构塑形,发现了优于原始密集ResNet20的稀疏架构,尤其在从更宽的网络开始时表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。