QUICK REVIEW

[论文解读] Pruning artificial neural networks: a way to find well-generalizing, high-entropy sharp minima

Enzo Tartaglione, Andrea Bragagnolo|arXiv (Cornell University)|Apr 30, 2020

Domain Adaptation and Few-Shot Learning参考文献 24被引用 12

一句话总结

本文比较了一次性剪枝与渐进式神经网络剪枝，表明渐进式剪枝能够访问到此前一次性方法无法触及的、具有良好泛化能力的高熵尖锐极小值。本文提出了PSP-entropy这一度量指标，揭示了渐进式剪枝模型学习到更多通用、类别无关的特征，尽管计算成本更高，但其在迁移学习中表现更优。

ABSTRACT

Recently, a race towards the simplification of deep networks has begun, showing that it is effectively possible to reduce the size of these models with minimal or no performance loss. However, there is a general lack in understanding why these pruning strategies are effective. In this work, we are going to compare and analyze pruned solutions with two different pruning approaches, one-shot and gradual, showing the higher effectiveness of the latter. In particular, we find that gradual pruning allows access to narrow, well-generalizing minima, which are typically ignored when using one-shot approaches. In this work we also propose PSP-entropy, a measure to understand how a given neuron correlates to some specific learned classes. Interestingly, we observe that the features extracted by iteratively-pruned models are less correlated to specific classes, potentially making these models a better fit in transfer learning approaches.

研究动机与目标

探究剪枝策略如何在最小性能损失下实现高泛化能力。
从模型稀疏性、泛化能力及极小值特性角度，比较一次性剪枝与渐进式剪枝。
理解尖锐极小值是否能够实现良好泛化，从而挑战传统认为平坦极小值更优的观点。
开发一种度量指标（PSP-entropy），用于量化剪枝模型中神经元的特化程度与特征泛化能力。
基于特征抽象质量，评估剪枝模型在迁移学习中的适用性。

提出的方法

在LeNet-5及其他架构上，对MNIST、CIFAR-10和ImageNet数据集中的一次性剪枝（如Frankle & Carbin）与渐进式剪枝（如LOBSTER）进行比较。
利用Hessian特征值分析评估极小值的尖锐程度，通过高效的近似方法计算前5个最大特征值。
提出PSP-entropy，一种基于突触后电位（PSP）L2范数及其类别间分布的度量，用于量化神经元特化程度。
使用一次性与渐进式解之间的二维损失图，可视化损失景观与极小值宽度。
分析PSP L2范数的幅值，以评估激活强度及网络稀疏性的影响。
应用一阶与二阶PSP-entropy评估特征特异性：熵值越低表示神经元越具类别特异性，熵值越高表示特征越具泛化能力。

实验结果

研究问题

RQ1渐进式剪枝能否访问到一次性剪枝无法触及的、具有良好泛化能力的尖锐极小值？
RQ2高熵尖锐极小值是否比平坦极小值泛化能力更强，从而与传统认知相悖？
RQ3一次性剪枝与渐进式剪枝模型在特征抽象方面是否存在可测量的差异？
RQ4PSP-entropy能否作为剪枝网络中特征泛化能力的可靠指标？
RQ5由于具备更通用的特征，渐进式剪枝模型是否在迁移学习中优于一次性剪枝模型？

主要发现

渐进式剪枝在高稀疏度下（最高达99.57%参数被剪枝）实现了比一次性剪枝更高的稀疏性与更好的泛化能力，尤其在高压缩率下表现更优。
渐进式剪枝找到的解位于一个更窄但损失更低的极小值区域，表明其成功进入了具有独特性与良好泛化能力的尖锐极小值。
尽管极小值更尖锐，但渐进式剪枝模型泛化能力更优，挑战了‘仅平坦极小值能实现良好泛化’的传统假设。
PSP-entropy分析显示，渐进式剪枝模型的二阶熵值显著高于一次性剪枝模型，表明其特征更具通用性、类别特异性更低。
渐进式剪枝模型中较低的PSP L2范数值表明其激活幅值更小，有助于形成更稳定、更具泛化能力的表征。
结果表明，由于能够提取非特定、通用的特征，渐进式剪枝模型在迁移学习中更具优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。