[论文解读] The Difficulty of Training Sparse Neural Networks
本文分析了从头开始训练稀疏神经网络或通过剪枝得到的结果为何不同,展示了通向剪枝的单调路径,但在稀疏解之间存在障碍,除非允许密集连通。
We investigate the difficulties of training sparse neural networks and make new observations about optimization dynamics and the energy landscape within the sparse regime. Recent work of \citep{Gale2019, Liu2018} has shown that sparse ResNet-50 architectures trained on ImageNet-2012 dataset converge to solutions that are significantly worse than those found by pruning. We show that, despite the failure of optimizers, there is a linear path with a monotonically decreasing objective from the initialization to the "good" solution. Additionally, our attempts to find a decreasing objective path from "bad" solutions to the "good" ones in the sparse subspace fail. However, if we allow the path to traverse the dense subspace, then we consistently find a path between two solutions. These findings suggest traversing extra dimensions may be needed to escape stationary points found in the sparse subspace.
研究动机与目标
- 理解稀疏神经网络中的优化动力学与能量景观。
- 研究为何基于剪枝的方法在性能上优于从头训练稀疏网络或使用 lottery 初始化的训练。
- 检验初始化与稀疏解之间的插值路径,以识别稀疏子空间中的障碍。
- 评估移除稀疏性约束(允许密集连通)是否有助于逃离局部极小值。
- 为稀疏聚焦模型的初始化、正则化和优化提供未来方法的参考。
提出的方法
- 在不同稀疏性水平下训练 ResNet-50 于 ImageNet-2012。
- 使用基于幅度的剪枝达到预定的稀疏目标。
- 将剪枝得到的解与从头训练和 lottery 初始化的稀疏初始化进行比较。
- 在稀疏子空间和密集子空间中,线性插值和 Bézier 曲线在初始化与剪枝解之间进行插值。
- 沿插值评估目标函数以研究能量景观和障碍。
实验结果
研究问题
- RQ1为何从头训练或使用 lottery 初始化的稀疏网络无法达到剪枝结果?
- RQ2在稀疏子空间内,初始化到剪枝解之间是否存在单调下降路径?
- RQ3当将稀疏性放宽为密集连通时,稀疏解之间是否存在路径?
- RQ4允许密集连通对于在稀疏 regime 中逃离坏的驻点意味着什么?
主要发现
- 在稀疏子空间内,沿线性插值从初始化到剪枝解存在一个单调下降的路径。
- 从头训练到剪枝解的线性路径表现出高能量屏障,二次/三次 Bézier 曲线在稀疏子空间中无法提供下降路径。
- 移除稀疏性约束(解开密度)允许在两个稀疏解之间的目标函数 Bézier 曲线下降,表明密集连通有助于逃离驻点。
- 在密集子空间中的路径始终在两个稀疏解之间找到下降的目标曲线,表明需要额外维度以摆脱稀疏子空间停滞。
- 尽管存在到剪枝的单调路径,因稀疏子空间中的优化动力学,仍然很难从头训练或 lottery 初始化到剪枝解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。