Skip to main content
QUICK REVIEW

[论文解读] AutoCompress: An Automatic DNN Structured Pruning Framework for Ultra-High Compression Rates

Ning Liu, Xiaolong Ma|arXiv (Cornell University)|Jul 6, 2019
Advanced Neural Network Applications参考文献 41被引用 35
一句话总结

AutoCompress 提出一个用于 DNN 结构化裁剪的自动框架,结合基于 ADMM 的裁剪、净化步骤以及引导式启发式搜索(相较 DRL 有所提升),以在最小精度损失的前提下实现极高的权重/FLOPs 下降。

ABSTRACT

Structured weight pruning is a representative model compression technique of DNNs to reduce the storage and computation requirements and accelerate inference. An automatic hyperparameter determination process is necessary due to the large number of flexible hyperparameters. This work proposes AutoCompress, an automatic structured pruning framework with the following key performance improvements: (i) effectively incorporate the combination of structured pruning schemes in the automatic process; (ii) adopt the state-of-art ADMM-based structured weight pruning as the core algorithm, and propose an innovative additional purification step for further weight reduction without accuracy loss; and (iii) develop effective heuristic search method enhanced by experience-based guided search, replacing the prior deep reinforcement learning technique which has underlying incompatibility with the target pruning problem. Extensive experiments on CIFAR-10 and ImageNet datasets demonstrate that AutoCompress is the key to achieve ultra-high pruning rates on the number of weights and FLOPs that cannot be achieved before. As an example, AutoCompress outperforms the prior work on automatic model compression by up to 33x in pruning rate (120x reduction in the actual parameter count) under the same accuracy. Significant inference speedup has been observed from the AutoCompress framework on actual measurements on smartphone. We release all models of this work at anonymous link: http://bit.ly/2VZ63dS.

研究动机与目标

  • 激发对结构化裁剪的自动超参数确定,以在尽量少的精度损失下降低权重和 FLOPs。
  • 整合多种结构化裁剪方案(如过滤器剪裁、列剪裁)以实现更高压缩。
  • 将基于 ADMM 的结构化裁剪作为核心求解器并添加净化步骤。
  • 用基于经验的启发式搜索替代基于 DRL 的超参数搜索,以实现高裁剪率。

提出的方法

  • 采用基于 ADMM 的结构化权重裁剪作为核心优化引擎。
  • 包括通过列/过滤器阈值在保持结构的同时去除额外权重的净化步骤。
  • 采用四步通用自动流程:动作采样、快速动作评估、决策制定和实际裁剪。
  • 使用带引导搜索的增强模拟退火来确定跨层的裁剪动作。
  • 允许逐轮裁剪,每轮大约降低约 2 倍以实现超高压缩。
  • 提供一个自动框架,将过滤器裁剪与列裁剪相结合,以获得更好的硬件兼容性和性能。

实验结果

研究问题

  • RQ1自动选择每层裁剪率和裁剪方案组合是否能在保持精度的同时实现更高的压缩?
  • RQ2将过滤器裁剪与列裁剪结合并使用基于 ADMM 的裁剪,是否优于 DRL 或手工超参数方法?
  • RQ3以往经验引导的启发式搜索在高比例结构化裁剪中是否比 DRL 更有效?
  • RQ4净化步骤在不损失精度的前提下进一步降低权重/FLOPs 的影响是什么?

主要发现

  • AutoCompress 在相近精度下,裁剪率比以往的自动模型压缩方法高出最多 33 倍(参数量最多缩减 120 倍)。
  • 将结构化裁剪(过滤器裁剪和列裁剪)结合起来比单独的过滤器裁剪获得更大的权重/FLOPs 降低。
  • 增强的基于 SA 的超参数确定在实现更高裁剪率方面超越了 DRL 方法和手动调参。
  • 第二阶段净化通过移除低幅度的列/过滤器及其相关通道,在不损失精度的前提下进一步降低权重。
  • 在 CIFAR-10 和 ImageNet 上,AutoCompress 实现超高裁剪率并在移动硬件上获得可测量的推理加速。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。