[论文解读] Training Skinny Deep Neural Networks with Iterative Hard Thresholding Methods
本文提出一种迭代硬阈值化(IHT)方法,用于训练参数显著减少的瘦型深度神经网络(SDNNs),在提升泛化能力并减小模型尺寸的同时,显著减少参数数量。该方法交替执行硬阈值化以剪枝低幅度连接,以及对剩余权重进行微调,随后重新激活并联合训练所有连接,从而在CIFAR-10、CIFAR-100、MNIST和ImageNet上实现最先进性能,参数量最多减少4倍。
Deep neural networks have achieved remarkable success in a wide range of practical problems. However, due to the inherent large parameter space, deep models are notoriously prone to overfitting and difficult to be deployed in portable devices with limited memory. In this paper, we propose an iterative hard thresholding (IHT) approach to train Skinny Deep Neural Networks (SDNNs). An SDNN has much fewer parameters yet can achieve competitive or even better performance than its full CNN counterpart. More concretely, the IHT approach trains an SDNN through following two alternative phases: (I) perform hard thresholding to drop connections with small activations and fine-tune the other significant filters; (II)~re-activate the frozen connections and train the entire network to improve its overall discriminative capability. We verify the superiority of SDNNs in terms of efficiency and classification performance on four benchmark object recognition datasets, including CIFAR-10, CIFAR-100, MNIST and ImageNet. Experimental results clearly demonstrate that IHT can be applied for training SDNN based on various CNN architectures such as NIN and AlexNet.
研究动机与目标
- 解决深度神经网络中过拟合以及高内存/计算成本的双重挑战。
- 开发一种在不牺牲性能的前提下减小模型尺寸的方法,尤其在高压缩率下表现优异。
- 通过迭代剪枝与再训练,提升压缩后网络的泛化能力。
- 实现在移动电话等内存受限设备上高效部署深度模型。
提出的方法
- 该方法在两个阶段间交替进行:通过权重幅度保留最显著的k个参数,其余置零。
- 在第一阶段,对保留的活跃连接进行微调,以在剪枝后恢复性能。
- 在第二阶段,重新激活先前冻结的连接,并对整个网络进行联合训练,以提升表征学习能力。
- 该过程迭代应用这两个阶段,逐步优化稀疏网络结构。
- 硬阈值化按层执行,仅保留基于权重幅度最重要的滤波器。
- 该方法应用于多种架构,包括NIN和AlexNet,并在训练过程中施加显式的尺寸约束。
实验结果
研究问题
- RQ1迭代硬阈值化是否能在减少模型尺寸的同时提升深度神经网络的泛化能力?
- RQ2通过硬阈值化剪枝后进行再训练,是否能获得优于标准剪枝或正则化方法的性能?
- RQ3使用IHT训练的SDNN是否能在显著减少参数量的情况下实现最先进准确率?
- RQ4该方法在不同复杂度的数据集(如MNIST、CIFAR-10/100和ImageNet)上的可扩展性如何?
- RQ5基于IHT的训练策略在高压缩率下是否仍能保持或提升性能?
主要发现
- 在CIFAR-10上,SDNN-2×相比NIN将误差率降低了2.42%,同时参数量仅为一半。
- 在CIFAR-100上,SDNN-2×在使用数据增强时误差率比NIN低5.18%,在不使用时低3.19%,尽管模型尺寸更小。
- 在MNIST上,SDNN-2×仅用0.18M参数即实现0.19%的误差率,优于NIN(0.35M参数,误差率0.47%)。
- 在ImageNet上,SDNN-2×相比基线AlexNet将top-5误差率降低1.66%,同时参数量减少50%。
- SDNN-4×在1500万参数下比基线AlexNet误差率低0.81%,且在相同参数量下优于以往的剪枝方法。
- 该方法在所有数据集和架构上均持续提升性能,即使在高压缩率下也表现出优越的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。