QUICK REVIEW
[论文解读] Proving the Lottery Ticket Hypothesis: Pruning is All You Need
Eran Malach, Gilad Yehudai|arXiv (Cornell University)|Feb 3, 2020
Machine Learning and Algorithms参考文献 26被引用 73
一句话总结
本文在充分过参数化的网络中,存在一个子网络,其权重有界,且无需任何训练即可匹配目标网络,证明了彩票假说的一个更强版本。
ABSTRACT
The lottery ticket hypothesis (Frankle and Carbin, 2018), states that a randomly-initialized network contains a small subnetwork such that, when trained in isolation, can compete with the performance of the original network. We prove an even stronger hypothesis (as was also conjectured in Ramanujan et al., 2019), showing that for every bounded distribution and every target network with bounded weights, a sufficiently over-parameterized neural network with random weights contains a subnetwork with roughly the same accuracy as the target network, without any further training.
研究动机与目标
- 将神经网络剪枝作为在尽量少的性能损失下压缩模型的方法的动机。
- 在理论上建立随机过参数化网络包含近似有界目标网络的子网络。
- 区分权重子网络和神经元子网络,并分析它们的表达能力。
提出的方法
- 证明通过权重子网络,在充分宽度下,通过裁剪一个深度为 2l 的随机网络,可以近似得到深度为 l 的网络。
- 证明浅层、深度为二的网络的神经元子网络在与最佳随机特征分类器的竞争力上具有可比性。
- 给出通过裁剪来逼近 ReLU 网络的构造,并将活跃权重按目标参数进行量化描述。
- 证明对深度为二的目标的更强结果,其中深度为三的随机网络就足以近似。
实验结果
研究问题
- RQ1在充分过参数化的随机网络中,是否存在一个子网络能够在不训练的情况下逼近给定的有界权重目标网络?
- RQ2在逼近目标网络方面,权重子网络与神经元子网络的能力有何比较?
- RQ3在普遍逼近能力方面,裁剪与随机特征之间有何关系?
- RQ4对学习和计算复杂性在裁剪随机网络时有何含义?
主要发现
- 深度为 l 的 ReLU 网络可以通过对深度为 2l 的随机网络进行多项式宽度的裁剪来近似。
- 对于深度为二的目标,通过权重子网络,若活跃权重为 O(dn),一个随机三层网络就足以近似目标。
- 权重子网络在参数数量方面达到近似,与目标网络相当,至多一个常数因子之差。
- 神经元子网络与随机特征具有竞争力,在温和条件下确立了裁剪神经元与随机特征模型之间的等价性。
- 裁剪具有普遍逼近能力,并且映射出已知的训练密集网络的计算复杂性结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。