Skip to main content
QUICK REVIEW

[论文解读] PCAS: Pruning Channels with Attention Statistics for Deep Network Compression

Kohei Yamamoto, Kurato Maeno|arXiv (Cornell University)|Jun 14, 2018
Advanced Neural Network Applications参考文献 31被引用 34
一句话总结

本文提出PCAS,一种利用注意力统计信息自动识别并移除深度神经网络中冗余通道的通道剪枝方法。通过在预训练模型上训练轻量级注意力模块,PCAS在无需逐层调整压缩比率的情况下评估通道重要性,在CIFAR、ImageNet和CamVid数据集上的VGG、ResNet、MobileNet和SegNet模型中实现了卓越的精度与效率,通道减少最多达60%,且top-1精度下降不超过1.5%。

ABSTRACT

Compression techniques for deep neural networks are important for implementing them on small embedded devices. In particular, channel-pruning is a useful technique for realizing compact networks. However, many conventional methods require manual setting of compression ratios in each layer. It is difficult to analyze the relationships between all layers, especially for deeper models. To address these issues, we propose a simple channel-pruning technique based on attention statistics that enables to evaluate the importance of channels. We improved the method by means of a criterion for automatic channel selection, using a single compression ratio for the entire model in place of per-layer model analysis. The proposed approach achieved superior performance over conventional methods with respect to accuracy and the computational costs for various models and datasets. We provide analysis results for behavior of the proposed criterion on different datasets to demonstrate its favorable properties for channel pruning.

研究动机与目标

  • 解决在深度模型中各层通道剪枝时手动调整压缩比率的挑战。
  • 开发一种无需逐层超参数调整的自动化、模型无关的通道剪枝方法。
  • 通过利用注意力统计信息评估通道重要性,提升剪枝的效率与精度。
  • 实现深度神经网络在资源受限嵌入式设备上的有效压缩。

提出的方法

  • 在预训练网络中每个目标卷积层或全连接层之前引入注意力模块,以估计通道重要性。
  • 通过反向传播在预训练模型和注意力模块输出之间进行一次性的端到端训练,以优化注意力模块。
  • 利用注意力模块的输出计算注意力统计信息,表示批量中每个通道的相对重要性。
  • 基于注意力统计信息应用单一全局压缩比率对通道进行剪枝,从而消除对逐层调参的需求。
  • 剪枝后使用相同的训练协议对所有模型和数据集进行微调,以恢复精度。
  • 基于累积注意力统计信息设计阈值机制,识别并移除重要性最低的通道。

实验结果

研究问题

  • RQ1注意力统计信息是否能在无需逐层调整压缩比率的情况下,有效识别深度神经网络中的冗余通道?
  • RQ2所提出的基于注意力的判据在精度与计算效率方面相较于现有剪枝准则表现如何?
  • RQ3在基于注意力的重要性估计下,单一全局压缩比率在所有层中是否具有足够的有效性?
  • RQ4该方法在不同网络架构(如VGG、ResNet、MobileNet)和数据集(如CIFAR、ImageNet、CamVid)上的泛化能力如何?
  • RQ5注意力统计信息为模型中通道冗余性与类别特异性响应提供了哪些洞察?

主要发现

  • PCAS在ImageNet数据集上对VGG-16和ResNet-50模型实现了最高达60%的通道减少,且top-1精度仅下降1.5%。
  • 在多个模型和数据集中,该方法在精度与计算成本方面均优于传统剪枝技术。
  • 注意力统计信息显示,对所有类别响应微弱的通道优先被剪除,表明其具备有效的冗余检测能力。
  • 即使在高剪枝比率下,该方法仍保持高性能,VGG-16和ResNet-50的精度分别在压缩比达到0.50和0.45时仍能维持较高水平。
  • 分析表明,深层网络(尤其是VGG)中存在更多冗余通道,这由高度偏斜的注意力统计信息所反映。
  • 注意力机制成功捕捉了类别特异性响应模式,对特定类别响应微弱的通道被识别为剪枝候选。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。