Skip to main content
QUICK REVIEW

[论文解读] Compression of Deep Neural Networks on the Fly

Guillaume Soulié, Vincent Gripon|arXiv (Cornell University)|Sep 29, 2015
Advanced Neural Network Applications被引用 1
一句话总结

本文提出一种新型的端到端压缩方法,通过在训练过程中引入二值正则化项,促使网络权重重构为0或1,随后采用乘积量化(PQ)实现进一步压缩。该方法在MNIST数据集上实现了107倍的压缩率,仅损失2%的准确率,显著优于当前最先进的技术,其优势在于将正则化整合到学习阶段,而非在训练后进行压缩。

ABSTRACT

Thanks to their state-of-the-art performance, deep neural networks are increasingly used for object recognition. To achieve these results, they use millions of parameters to be trained. However, when targeting embedded applications the size of these models becomes problematic. As a consequence, their usage on smartphones or other resource limited devices is prohibited. In this paper we introduce a novel compression method for deep neural networks that is performed during the learning phase. It consists in adding an extra regularization term to the cost function of fully-connected layers. We combine this method with Product Quantization (PQ) of the trained weights for higher savings in storage consumption. We evaluate our method on two data sets (MNIST and CIFAR10), on which we achieve significantly larger compression rates than state-of-the-art methods.

研究动机与目标

  • 为资源受限设备(如智能手机)在部署深度神经网络时减少存储占用。
  • 解决当前SOTA卷积神经网络模型尺寸过大的问题,其模型大小可能超过100 MB,阻碍在嵌入式系统中的部署。
  • 开发一种在训练阶段而非训练后进行压缩的方法,以在保持性能的同时实现更高压缩率。
  • 研究网络层深度对二值量化性能的影响,并据此优化压缩策略。

提出的方法

  • 在损失函数中引入一种新型正则化项,促使全连接层权重重构为二值(0或1)以实现训练过程中的二值化。
  • 对训练完成并已二值化的权重应用乘积量化(PQ),以进一步降低存储需求。
  • 聚焦于全连接层的压缩,因其在典型CNN中占模型总大小的90%以上。
  • 优先对输出层进行二值化,因其对性能和存储的影响更大。
  • 采用混合策略:在训练阶段使用二值正则化,随后通过PQ实现额外压缩。
  • 采用逐层策略,从输出层到输入层依次量化,以维持分类准确率。

实验结果

研究问题

  • RQ1二值化层的深度如何影响压缩DNN的分类性能?
  • RQ2在训练过程中添加二值正则化项是否能提升压缩效率而不损失准确率?
  • RQ3在全连接层中,二值化的最优层序(从输入到输出 vs. 从输出到输入)是什么?
  • RQ4与训练后压缩技术相比,所提出的端到端方法在压缩率和准确率方面表现如何?
  • RQ5当与学习得到的二值权重结合时,乘积量化(PQ)能在多大程度上进一步提升压缩效果?

主要发现

  • 该方法在MNIST数据集上实现了107倍的压缩率,仅损失2%的准确率,显著优于当前最先进的方法。
  • 仅压缩两个输出全连接层即可将模型存储空间从26 MB减少至550 KB,展现出显著的内存节省效果。
  • 若首先对输入层进行二值化,性能会显著下降;最佳效果是在输入层之前先对输出层进行二值化。
  • 即使在极端压缩率下,该方法仍能保持高准确率,当仅对最后一层进行二值化时,MNIST测试误差仅为0.88%。
  • 结合端到端二值正则化与PQ的方法,其压缩率高于仅使用PQ,单次PQ实现33倍压缩率,而本方法实现107倍压缩率。
  • 研究证实,输出层更适合进行二值化,因其在高层特征检测中起关键作用,与生物合理性相符。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。