Skip to main content
QUICK REVIEW

[论文解读] NoiseOut: A Simple Way to Prune Neural Networks

Mohammad Babaeizadeh, Paris Smaragdis|arXiv (Cornell University)|Nov 18, 2016
Advanced Neural Network Applications参考文献 11被引用 23
一句话总结

NoiseOut 是一种完全自动化的神经网络剪枝方法,通过合并隐藏层中高度相关的神经元来减小模型尺寸。在训练过程中添加随机的“噪声输出”,可提高激活相关性,从而实现激进的剪枝——在 LeNet-5 上实现高达 97.75% 的参数减少,且准确率无损失,同时保持了最先进的压缩率。

ABSTRACT

Neural networks are usually over-parameterized with significant redundancy in the number of required neurons which results in unnecessary computation and memory usage at inference time. One common approach to address this issue is to prune these big networks by removing extra neurons and parameters while maintaining the accuracy. In this paper, we propose NoiseOut, a fully automated pruning algorithm based on the correlation between activations of neurons in the hidden layers. We prove that adding additional output neurons with entirely random targets results into a higher correlation between neurons which makes pruning by NoiseOut even more efficient. Finally, we test our method on various networks and datasets. These experiments exhibit high pruning rates while maintaining the accuracy of the original network.

研究动机与目标

  • 为解决过参数化神经网络因冗余参数导致的高推理成本问题。
  • 开发一种完全自动化的剪枝方法,无需微调或超参数调优。
  • 通过提高隐藏层神经元激活之间的相关性,提升剪枝效果。
  • 证明添加随机噪声输出可增强相关性,并实现更激进、更精确的剪枝。

提出的方法

  • NoiseOut 通过基于激活相似度,迭代地在每个隐藏层中合并最相关的两个神经元来实现剪枝。
  • 该方法使用一个训练循环,交替执行前向传播、相关性检测以及带权重调整的神经元合并。
  • 其关键创新在于在训练过程中添加具有随机目标的噪声输出,以人工方式增强隐藏层神经元激活之间的相关性。
  • 测试了不同噪声分布(正态分布、二项分布、常数分布)对相关性和剪枝效率的影响。
  • 剪枝持续进行,直到准确率低于预设阈值,以确保性能下降最小化。
  • 该算法独立应用于每个隐藏层,并可扩展至含全连接层的卷积网络。

实验结果

研究问题

  • RQ1在训练过程中添加随机噪声输出是否能提高隐藏层神经元激活之间的相关性?
  • RQ2神经元激活之间的更高相关性是否能带来更有效、更激进的剪枝?
  • RQ3NoiseOut 是否能在不牺牲模型准确率的前提下实现高参数压缩率?
  • RQ4不同噪声分布(正态分布、二项分布、常数分布)对剪枝性能和相关性有何影响?
  • RQ5NoiseOut 方法在不同网络架构和数据集上是否具有鲁棒性?

主要发现

  • 在 MNIST 数据集上的 LeNet-5 中,NoiseOut 实现了高达 97.75% 的参数减少,同时保持 0.95% 的错误率,模型尺寸缩小了 44 倍。
  • 在 LeNet-300-100 上,采用正态分布噪声时,NoiseOut 成功去除了 94.02% 的参数,且准确率无损失,压缩率达到 16.73 倍。
  • 在 SVHN 数据集上,使用正态噪声的 NoiseOut 从深层 CNN 中去除了 85.39% 的参数,同时保持 93.39% 的训练准确率。
  • 添加噪声输出显著提高了隐藏层的激活相关性,其中二项分布噪声表现出强烈的初始相关性增长。
  • NoiseOut 剪枝未导致过拟合,所有实验中训练与测试准确率均保持稳定,表现出良好的泛化能力。
  • 该方法在无需微调或手动超参数调优的情况下,实现了最先进的压缩率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。