[论文解读] What Do Compressed Deep Neural Networks Forget?
本论文评估修剪(pruning)和量化(quantization)如何影响分类器性能,超越首要准确率,揭示一小组实例(PIEs)在压缩下受影响不成比例,且在不同方法中存在差异的影响。
Deep neural network pruning and quantization techniques have demonstrated it is possible to achieve high levels of compression with surprisingly little degradation to test set accuracy. However, this measure of performance conceals significant differences in how different classes and images are impacted by model compression techniques. We find that models with radically different numbers of weights have comparable top-line performance metrics but diverge considerably in behavior on a narrow subset of the dataset. This small subset of data points, which we term Pruning Identified Exemplars (PIEs) are systematically more impacted by the introduction of sparsity. Compression disproportionately impacts model performance on the underrepresented long-tail of the data distribution. PIEs over-index on atypical or noisy images that are far more challenging for both humans and algorithms to classify. Our work provides intuition into the role of capacity in deep neural networks and the trade-offs incurred by compression. An understanding of this disparate impact is critical given the widespread deployment of compressed models in the wild.
研究动机与目标
- 激励并量化网络压缩(修剪和量化)如何超越整体准确率影响泛化能力。
- 识别是否有某些类别或示例在压缩下受到不成比例的影响。
- 建立一个正式框架,以审计压缩模型中的差异性伤害并量化权衡。
- 考察压缩如何与分布漂移以及对干扰的鲁棒性相互作用。
提出的方法
- 定义一个框架,通过将压缩下的相对类别召回率与基线准确率进行比较来衡量分类级别的影响。
- 在每个压缩设置下训练 K 个模型的群体,以为类别级准确率创建分布用于统计检验(Welch 的t检验)。
- 计算每个类别的相对召回差异,以控制整体准确率变化。
- 引入 Pruning Identified Exemplars (PIEs) 作为在修剪和非修剪模型对同一主标签预测不一致的图像。
- 在 CIFAR-10、CelebA 和 ImageNet 上,结合多种体系结构和稀疏度,评估修剪与三种后训练量化方案。
实验结果
研究问题
- RQ1压缩方法是否在某些类别上造成的影响超出整体准确率的变化?
- RQ2PIEs 是什么以及相较于非 PIEs 它们表现出哪些特征?
- RQ3压缩如何影响对分布漂移和干扰的鲁棒性?
- RQ4量化在跨任务中的不成比例伤害是否本质上小于修剪?
主要发现
- 总体准确率可能掩盖压缩下对各类别的显著非均匀影响。
- 少量类别在修剪下呈现统计显著的召回下降,且随稀疏度增加而加剧(例如在 50% 稀疏时有 170 个显著类别;在 70% 时有 372 个)。
- PIEs 对机器和人类分类都具有不成比例的挑战性,在更高的稀疏度下 PIEs 更为普遍(ImageNet 在 90% 稀疏时为 10.27%)。
- 修剪模型对自然对抗性图像和扰动更敏感,在更高稀疏度下表现更显著。
- 量化在不成比例伤害方面往往小于修剪;最强的 int8 定点量化影响的类别数量多于中等修剪,但就相对而言仍不及高稀疏修剪。
- 非均匀影响随任务复杂度而异;CIFAR-10 受影响的类别比 ImageNet 少,提示过度参数化和任务难度会调节不同行为差异的效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。