QUICK REVIEW

[论文解读] Learning to Prune Deep Neural Networks via Layer-wise Optimal Brain Surgeon

Xin Dong, Shangyu Chen|arXiv (Cornell University)|May 22, 2017

Advanced Neural Network Applications被引用 284

一句话总结

介绍分层最优脑手术法（L-OBS），一种使用二阶导数对每一层进行裁剪的分层裁剪方法，在限定最终误差且仅需轻量再训练的情况下，对各层进行裁剪。它在多种架构下实现高压缩率并保持准确性。

ABSTRACT

How to develop slim and accurate deep neural networks has become crucial for real- world applications, especially for those employed in embedded systems. Though previous work along this research line has shown some promising results, most existing methods either fail to significantly compress a well-trained deep network or require a heavy retraining process for the pruned deep network to re-boost its prediction performance. In this paper, we propose a new layer-wise pruning method for deep neural networks. In our proposed method, parameters of each individual layer are pruned independently based on second order derivatives of a layer-wise error function with respect to the corresponding parameters. We prove that the final prediction performance drop after pruning is bounded by a linear combination of the reconstructed errors caused at each layer. Therefore, there is a guarantee that one only needs to perform a light retraining process on the pruned network to resume its original prediction performance. We conduct extensive experiments on benchmark datasets to demonstrate the effectiveness of our pruning method compared with several state-of-the-art baseline methods.

研究动机与目标

激发需要适用于嵌入和现实部署的 slim 又准确的网络。
提出一个使用二阶信息来识别每层可裁剪参数的分层裁剪框架。
保证整体网络性能下降被重建后的每层误差所界定。
通过将Hessian计算聚焦在每一层并在裁剪后实现轻量再训练来减少计算负担。

提出的方法

将每层的裁剪建模为一个分层误差，使用前向预激活输出Z^l和分层误差E^l的泰勒展开。
计算每层的逆Hessian H_l^{-1} 以获得敏感性 L_q = (Θ_{l[q]})^2 / (2 [H_l^{-1}]_{qq}).
裁剪敏感性分数最小的参数，同时确保诱导的分层误差低于阈值ε。
给出最终网络误差的界： ε̃^L ≤ ∑_{l} (Π_{k>l} ||Θ^{k}||) √δE^l，确保整体退化可控。
通过向量化滤波器并推导块对角Hessian结构来扩展到卷积层以简化逆运算。
提供一个迭代版本，在裁剪和轻量再训练之间交替以实现更高的压缩比。

实验结果

研究问题

RQ1分层二阶裁剪是否能在不进行全网重训练的情况下实现高压缩且保持准确性？
RQ2如何控制每层裁剪误差以界定整体网络性能下降？
RQ3有哪些高效机制可以计算并逆转分层Hessian以实现可扩展裁剪？
RQ4该方法是否可推广到卷积层和超越全连接网络的现代架构？

主要发现

L-OBS在多种模型（如 LeNet 变体、CIFAR-Net、AlexNet、VGG-16、ResNet-50）上，在重训练前实现了在较小的准确损失下的显著压缩。
对 LeNet-300-100，L-OBS（单阶段）达到 7% 压缩，重误差 3.10%，而迭代裁剪在更高压缩下达到 1.5%–1.8% 的重误差。
对 LeNet-5 与 CIFAR-Net，裁剪后误差降至个位数百分比范围，且所需重训练迭代次数远少于竞争方法。
在 AlexNet 与 VGG-16 上，L-OBS 实现显著压缩（AlexNet 11%，VGG-16 7.5%），且准确率无显著下降，有时仅需微量再训练。
L-OBS 能裁剪 ResNet-50，同时在裁剪比≥45%时保持 top-5 准确率高于 85%。
与 Net-Trim、DNS、LWC 等基线相比，该方法降低了重训练负担，并支持迭代裁剪以在轻量重训练下达到更高压缩。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。