[论文解读] DSD: Regularizing Deep Neural Networks with Dense-Sparse-Dense Training Flow.
DSD 是一种三阶段训练流程——密集-稀疏-密集——通过先训练一个密集网络,然后在稀疏性约束下剪枝不重要的连接,最后在重新初始化剪枝权重后对完整密集网络进行微调,从而对深度神经网络进行正则化。该方法在图像分类、语音识别和图像字幕生成任务中,对 CNN、RNN 和 LSTM 模型均提升了准确率,且不增加推理成本。
Modern deep neural networks have a large number of parameters, making them very powerful machine learning systems. A critical issue for training such large networks on large-scale data-sets is to prevent overfitting while at the same time providing enough model capacity. We propose DSD, a dense-sparse-dense training flow, for regularizing deep neural networks. In the first D step, we train a dense network to learn which connections are important. In the S step, we regularize the network by pruning the unimportant connections and retrain the network given the sparsity constraint. In the final D step, we increase the model capacity by freeing the sparsity constraint, re-initializing the pruned parameters, and retraining the whole dense network. Experiments show that DSD training can improve the performance of a wide range of CNN, RNN and LSTMs on the tasks of image classification, caption generation and speech recognition. On the Imagenet dataset, DSD improved the absolute accuracy of AlexNet, GoogleNet, VGG-16, ResNet50, ResNet-152 and SqueezeNet by a geo-mean of 2.1 points (Top-1) and 1.4 points (Top-5). On the WSJ’92 and WSJ’93 dataset, DSD improved DeepSpeech2 WER by 0.53 and 1.08 points. On the Flickr-8K dataset, DSD improved the NeuralTalk BLEU score by 2.0 points. DSD training flow produces the same model architecture and doesn’t incur any inference overhead.
研究动机与目标
- 解决在大规模数据集上训练的大规模深度神经网络中的过拟合问题,同时保持模型容量。
- 开发一种正则化技术,在不增加模型复杂度或推理成本的前提下提升泛化能力。
- 探究结构化剪枝与后续微调是否能提升多样化架构和任务下的性能。
- 设计一种训练流程,在保持最终模型架构不变的同时,通过动态稀疏性提升泛化能力。
提出的方法
- 在第一个 D 阶段,通过标准反向传播训练一个全连接(密集)网络,以识别重要连接。
- 在 S 阶段,基于大小或重要性得分剪枝不重要的连接,并在稀疏性约束下对剩余的稀疏网络进行微调。
- 在最后一个 D 阶段,移除稀疏性约束,重新初始化剪枝的权重,并从头开始对完整的密集网络进行训练。
- 该方法适用于多种架构,包括 CNN、RNN 和 LSTM,且与标准训练流程兼容。
- 该训练流程端到端可微,不改变最终模型架构,也不引入推理开销。
实验结果
研究问题
- RQ1密集-稀疏-密集训练流程是否能在多样化架构和任务中提升深度神经网络的泛化能力?
- RQ2结构化剪枝后进行微调是否能在不增加模型大小或推理成本的前提下提升性能?
- RQ3与标准训练相比,DSD 在图像分类、语音识别和图像字幕生成任务中的准确率提升如何?
- RQ4DSD 流程在 ImageNet、WSJ 和 Flickr-8K 等基准数据集上的性能提升程度如何?
主要发现
- 在 ImageNet 上,DSD 使 AlexNet、GoogleNet、VGG-16、ResNet50、ResNet-152 和 SqueezeNet 的 top-1 准确率几何平均提升 2.1 个百分点。
- 在同一数据集上,DSD 使上述模型的 top-5 准确率几何平均提升 1.4 个百分点。
- 在 WSJ’92 和 WSJ’93 数据集上,DSD 分别将 DeepSpeech2 的 WER 降低 0.53 和 1.08 个百分点。
- 在 Flickr-8K 数据集上,DSD 将 NeuralTalk 的 BLEU 分数提升 2.0 分。
- DSD 训练流程保持了相同的最终模型架构,且无额外推理开销。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。