QUICK REVIEW

[论文解读] Layer-compensated Pruning for Resource-constrained Convolutional Neural Networks

Ting-Wu Chin, Cha Zhang|arXiv (Cornell University)|Oct 1, 2018

Advanced Neural Network Applications参考文献 32被引用 38

一句话总结

本文提出了一种基于元学习的层补偿剪枝（LcP）方法，将滤波器剪枝中的层调度与滤波器排序问题统一为一个全局优化框架。通过学习对启发式重要性度量中近似误差的层间补偿，LcP 在相比先前强化学习方法快 8 倍的元学习速度下实现了最先进（SOTA）的精度表现，且在 ImageNet 上实现 50% MAC 减少后，精度差距仅剩 0.7%。

ABSTRACT

Resource-efficient convolution neural networks enable not only the intelligence on edge devices but also opportunities in system-level optimization such as scheduling. In this work, we aim to improve the performance of resource-constrained filter pruning by merging two sub-problems commonly considered, i.e., (i) how many filters to prune for each layer and (ii) which filters to prune given a per-layer pruning budget, into a global filter ranking problem. Our framework entails a novel algorithm, dubbed layer-compensated pruning, where meta-learning is involved to determine better solutions. We show empirically that the proposed algorithm is superior to prior art in both effectiveness and efficiency. Specifically, we reduce the accuracy gap between the pruned and original networks from 0.9% to 0.7% with 8x reduction in time needed for meta-learning, i.e., from 1 hour down to 7 minutes. To this end, we demonstrate the effectiveness of our algorithm using ResNet and MobileNetV2 networks under CIFAR-10, ImageNet, and Bird-200 datasets.

研究动机与目标

解决现有滤波器剪枝方法将层调度与滤波器排序视为独立问题所导致的局限性。
将这两个子问题统一为一个单一的全局排序问题，以提升剪枝效率与精度。
在保持或提升性能的前提下，降低元学习用于剪枝策略发现的时间成本。
开发一个可泛化的框架，通过学习到的层间补偿机制，增强各类启发式重要性度量（如 ℓ1、ℓ2、Taylor）的效果。
在边缘部署场景中，实现对系统级优化的帕累托前沿的高效遍历。

提出的方法

将滤波器剪枝建模为一个统一的全局排序问题，将层调度与滤波器选择整合为一个优化任务。
推导剪枝目标的理论近似形式，引入近似误差，并通过元学习对这些误差进行补偿。
提出一种元学习框架，用于学习潜在变量，以校正重要性分数中的层间近似误差。
将学习到的补偿机制应用于多种启发式度量（ℓ1、ℓ2、一阶 Taylor）以提升剪枝效果。
在一组验证数据集上训练元学习器，以实现对不同网络架构和数据集的泛化能力。
使用训练好的元学习器，预测在不同 MAC 或延迟约束下的最优剪枝调度与滤波器排序。

实验结果

研究问题

RQ1滤波器剪枝中的层调度与滤波器排序问题能否被有效统一为一个单一的全局优化问题？
RQ2在剪枝目标简化过程中引入的近似误差，能否以分层方式系统性地进行补偿？
RQ3能否利用元学习来学习有效的误差补偿机制，从而提升剪枝的精度与效率？
RQ4与现有基于强化学习的方法相比，该方法在精度与训练时间方面是否均表现更优？
RQ5该框架能否在不同网络架构与数据集上保持高性能，同时满足资源约束条件？

主要发现

当在 ImageNet 上将 MAC 操作减少至 50% 时，LcP 将剪枝后与原始 ResNet-50 模型之间的精度差距从 0.9% 降低至 0.7%。
在 ImageNet 上，LcP 实现了 75.17% 的 SOTA 精度，且在相同 50% MAC 约束下优于先前方法。
相比先前基于强化学习的方法（耗时 1 小时），元学习时间缩短了 8 倍，仅需 7 分钟。
在 Bird-200 数据集上，LcP 实现了 78.34% 的 top-1 精度，MAC 操作为 51%，优于贪心单滤波器剪枝方法（50% MAC 时为 75.94%）。
该框架在不同架构间具有良好的泛化能力，在 CIFAR-10、ImageNet 和 Bird-200 上对 VGG、ResNet 和 MobileNetV2 均表现出色。
延迟分析显示，不同批处理大小下均保持一致的加速效果，ResNet-50 在剪枝至 58% MAC 后，批量大小为 16 时推理延迟为 1.11ms。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。