QUICK REVIEW

[论文解读] Pruning Convolutional Neural Networks for Resource Efficient Transfer Learning.

Pavlo Molchanov, Stephen Tyree|arXiv (Cornell University)|Nov 19, 2016

Domain Adaptation and Few-Shot Learning被引用 310

一句话总结

该论文提出了一种基于泰勒展开的剪枝准则，通过将贪心剪枝与反向传播微调交替进行，实现了卷积神经网络中高效迁移学习。该方法在性能上优于基于范数和激活值的剪枝准则，在3D卷积网络中实现了超过10倍的理论（5倍的实际）参数压缩，且在手势识别任务上精度损失极小，并在ImageNet、Flowers-102和Birds-200数据集上取得了优异结果。

ABSTRACT

We propose a new formulation for pruning convolutional kernels in neural networks to enable efficient inference. We interleave greedy criteria-based pruning with fine-tuning by backpropagation - a computationally efficient procedure that maintains good generalization in the pruned network. We propose a new criterion based on Taylor expansion that approximates the change in the cost function induced by pruning network parameters. We focus on transfer learning, where large pretrained networks are adapted to specialized tasks. The proposed criterion demonstrates superior performance compared to other criteria, e.g. the norm of kernel weights or feature map activation, for pruning large CNNs after adaptation to fine-grained classification tasks (Birds-200 and Flowers-102) relaying only on the first order gradient information. We also show that pruning can lead to more than 10x theoretical (5x practical) reduction in adapted 3D-convolutional filters with a small drop in accuracy in a recurrent gesture classifier. Finally, we show results for the large-scale ImageNet dataset to emphasize the flexibility of our approach.

研究动机与目标

解决使用大型预训练CNN进行迁移学习时带来的高计算与内存开销问题。
开发一种剪枝方法，在显著减小模型尺寸的同时保持模型精度，以实现高效推理。
通过泰勒展开利用一阶梯度信息，改进现有的剪枝准则（如权重范数或激活值大小）。
在2D和3D卷积网络中实现有效剪枝，包括循环手势分类器和大规模ImageNet模型。
在多种迁移学习任务和网络架构中，展示所提方法的灵活性与可扩展性。

提出的方法

提出一种基于泰勒展开的新剪枝准则，用于近似因移除卷积核而引起的损失函数变化。
将贪心卷积核剪枝与基于反向传播的微调过程交替进行，以在剪枝后保持模型泛化能力。
仅使用一阶梯度信息（即梯度幅值）计算基于泰勒的剪枝准则，避免昂贵的二阶计算。
迭代应用剪枝与微调过程，逐步移除重要性较低的滤波器，同时保持性能。
聚焦于大型预训练网络在特定任务（如细粒度图像分类）上进行微调的迁移学习场景。
将该方法扩展至3D卷积网络，适用于视频或序列数据，展示其可扩展性与效率优势。

实验结果

研究问题

RQ1基于一阶泰勒展开的剪枝准则是否能在迁移学习中超越传统的剪枝准则（如权重范数或激活值大小）？
RQ2在不降低精度的前提下，剪枝在序列数据的3D卷积网络中能将模型尺寸减少多少？
RQ3在微调后应用该剪枝方法时，其在大规模基准数据集（如ImageNet）上的有效性如何？
RQ4将剪枝与反向传播微调交替进行，是否比静态剪枝更能保持模型泛化能力？
RQ5该方法是否能在保持高精度的前提下，实现显著的参数压缩（如10倍）？

主要发现

所提出的基于泰勒展开的剪枝准则在Birds-200和Flowers-102数据集上微调大型CNN后，性能优于基于权重范数和激活值大小的剪枝准则。
该方法在循环手势分类器的3D卷积滤波器中实现了超过10倍的理论参数压缩和5倍的实际参数压缩，且精度仅略有下降。
该方法在大规模ImageNet数据集上保持了优异性能，证明了其在不同架构和任务中的灵活性与可扩展性。
通过泰勒展开利用一阶梯度信息指导的剪枝方法，在保持高精度的同时具备计算效率优势。
剪枝与微调交替进行的流程能有效保持模型泛化能力，即使在激进压缩后仍能获得高精度模型。
结果证实，该方法在多种迁移学习场景中均有效，包括细粒度分类和基于视频的序列建模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。