[论文解读] Parameter Efficient Training of Deep Convolutional Neural Networks by Dynamic Sparse Reparameterization
经论文提出一种新颖的动态稀疏重参数化方法,在固定参数预算下训练深度卷积神经网络,优于静态和动态基线,在 CIFAR-10 与 ImageNet 的实验中达到或超过后训练压缩的准确率。
Modern deep neural networks are typically highly overparameterized. Pruning techniques are able to remove a significant fraction of network parameters with little loss in accuracy. Recently, techniques based on dynamic reallocation of non-zero parameters have emerged, allowing direct training of sparse networks without having to pre-train a large dense model. Here we present a novel dynamic sparse reparameterization method that addresses the limitations of previous techniques such as high computational cost and the need for manual configuration of the number of free parameters allocated to each layer. We evaluate the performance of dynamic reallocation methods in training deep convolutional networks and show that our method outperforms previous static and dynamic reparameterization methods, yielding the best accuracy for a fixed parameter budget, on par with accuracies obtained by iteratively pruning a pre-trained dense model. We further investigated the mechanisms underlying the superior generalization performance of the resultant sparse networks. We found that neither the structure, nor the initialization of the non-zero parameters were sufficient to explain the superior performance. Rather, effective learning crucially depended on the continuous exploration of the sparse network structure space during training. Our work suggests that exploring structural degrees of freedom during training is more effective than adding extra parameters to the network.
研究动机与目标
- 在固定内存预算下为深度 CNN 进行参数高效训练提供动机。
- 开发一个在训练过程中重新分配非零参数的动态稀疏重参数化方法。
- 在 CNNs 与数据集上与静态稀疏、动态重参数化和压缩基线进行基准比较。
- 调查在训练过程中的动态结构探索带来的一般化提升的机制。
提出的方法
- 用稀疏参数张量表示网络,其中非零项通过梯度下降优化,位置在训练中重新分配。
- 使用两阶段的幅度裁剪(基于大小)和随机增长循环,在层内外移动可用参数。
- 通过全局阈值 H 自适应地调整裁剪阈值,保持非零参数总数固定。
- 将新释放的参数根据一个启发式在层之间重新分配,偏向于损失梯度较大且结构更稀疏的层。
- 在 CIFAR-10 和 ImageNet 上将动态稀疏重参数化与全密集、瘦密集、静态稀疏、压缩稀疏、DeepR、SET、HashedNet 基线进行比较。
实验结果
研究问题
- RQ1能否在固定参数预算下使用动态稀疏重参数化有效训练深度 CNN?
- RQ2在训练过程中对非零权重进行自适应跨层重新分配,是否比静态稀疏或后训练裁剪能带来更好的泛化?
- RQ3除了最终的稀疏结构或初始化,训练中对网络结构的动态探索是否必要以实现高泛化?
- RQ4使用动态稀疏训练时,在各层和块中会出现哪些新兴的稀疏模式?
主要发现
- 动态稀疏训练在相同参数预算下的泛化优于静态重参数化,且常常达到或超过后训练压缩基线。
- 最终稀疏模式显示,较大的参数张量往往变得更稀疏,且更深的层往往更稀疏。
- 与竞争性动态方法相比,该方法的计算开销可忽略不计,并且可以在层间自动重新分配参数。
- 优越性能来自训练过程中的持续结构探索,而不仅仅是最终的稀疏结构或初始化。
- 在初期若干时期后停止动态重新分配仍能收敛,表明早期的结构探索至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。