Skip to main content
QUICK REVIEW

[论文解读] A Survey of Model Compression and Acceleration for Deep Neural Networks

Yu Cheng, Duo Wang|arXiv (Cornell University)|Oct 23, 2017
Anomaly Detection Techniques and Applications参考文献 81被引用 878
一句话总结

本综述回顾了深度神经网络的压缩与加速的近期技术,将它们归类为剪枝/量化、低秩分解、转换/紧凑卷积滤波器,以及知识蒸馏,并讨论基准和未来挑战。

ABSTRACT

Deep neural networks (DNNs) have recently achieved great success in many visual recognition tasks. However, existing deep neural network models are computationally expensive and memory intensive, hindering their deployment in devices with low memory resources or in applications with strict latency requirements. Therefore, a natural thought is to perform model compression and acceleration in deep networks without significantly decreasing the model performance. During the past five years, tremendous progress has been made in this area. In this paper, we review the recent techniques for compacting and accelerating DNN models. In general, these techniques are divided into four categories: parameter pruning and quantization, low-rank factorization, transferred/compact convolutional filters, and knowledge distillation. Methods of parameter pruning and quantization are described first, after that the other techniques are introduced. For each category, we also provide insightful analysis about the performance, related applications, advantages, and drawbacks. Then we go through some very recent successful methods, for example, dynamic capacity networks and stochastic depths networks. After that, we survey the evaluation matrices, the main datasets used for evaluating the model performance, and recent benchmark efforts. Finally, we conclude this paper, discuss remaining the challenges and possible directions for future work.

研究动机与目标

  • 识别并分类深度神经网络的主要模型压缩与加速技术。
  • 分析每一类的优点、缺点及典型应用。
  • 评估训练协议(预训练与从头训练)以及端到端与模块化方法。
  • 总结在压缩文献中使用的评价指标、数据集和基准。
  • 讨论挑战及未来研究的潜在方向。

提出的方法

  • 将方法归类为四大组:参数剪枝与量化、低秩分解、转换/紧凑卷积滤波器,以及知识蒸馏。
  • 描述每一类中的子技术(例如量化/二值化、结构化稀疏、基于Hessian的剪枝、基于CP/BN的低秩分解、自适应/结构化矩阵,以及教师-学生蒸馏)。
  • 解释训练范式(预训练剪枝/量化与从头训练用于转换/紧凑滤波器及蒸馏)
  • 给出评估标准(压缩率、加速和准确性),并讨论在CPU/GPU及硬件上的实际部署要点。
  • 总结压缩研究中使用的代表性基准和基线模型(如AlexNet、VGG、GoogleNet、ResNet)及提供的性能表。

实验结果

研究问题

  • RQ1DNN 模型压缩与加速的主要类别有哪些?它们在适用性和影响方面有何区别?
  • RQ2剪枝/量化、低秩分解、转换滤波器,以及知识蒸馏在常见架构中的准确性、压缩和加速方面的对比如何?
  • RQ3哪些评价指标、数据集和基准最能体现压缩性能,以及有哪些典型权衡?
  • RQ4在DNN模型压缩领域,剩余的挑战与未来潜在方向是什么?
  • RQ5在给定应用和硬件约束条件下,应如何选择合适的压缩方法?

主要发现

模型TOP-5准确率加速压缩率
AlexNet80.03%1.1.
BN Low-rank80.56%1.094.94
CP Low-rank79.66%1.825.
VGG-1690.60%1.1.
BN Low-rank90.47%1.532.72
CP Low-rank90.31%2.052.75
GoogleNet92.21%1.1.
BN Low-rank91.88%1.082.79
CP Low-rank91.79%1.202.84
  • 四大主要类别构成了现状:剪枝/量化、低秩分解、转换/紧凑滤波器,以及知识蒸馏。
  • 这些方法大体上是正交的,可以组合使用(例如剪枝与量化,或低秩与转换滤波器)。
  • 转换/紧凑滤波器可以减少卷积层的参数,但取决于体系结构选择,可能不像其他方法那样适用于非常深/较瘦的网络。
  • 知识蒸馏可以得到模仿更大教师网络的紧凑网络,但竞争力可能较弱且通常依赖任务。
  • 低秩方法提供直接的压缩,但通常涉及逐层分解和再训练,可能在全局优化方面存在困难。
  • 基准测试通常使用AlexNet、VGG、GoogleNet和ResNet等网络,指标包括压缩率、加速和准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。