[论文解读] On Activation Function Coresets for Network Pruning
本文提出了一种数据无关的coreset方法,通过利用激活函数的特性,在全连接神经网络中实现可证明的、无需启发式方法的模型压缩。该方法构建的coreset可在MNIST数据集上对LeNet-300-100实现高达90%的参数压缩,同时提升测试准确率,无需依赖昂贵的训练阶段采样。
Model compression provides a means to efficiently deploy deep neural networks (DNNs) on devices that limited computation resources and tight power budgets, such as mobile and IoT (Internet of Things) devices. Consequently, model compression is one of the most critical topics in modern deep learning. Typically, the state-of-the-art model compression methods suffer from a big limitation: they are only based on heuristics rather than theoretical foundation and thus offer no worst-case guarantees. To bridge this gap, Baykal et. al. [2018a] suggested using a coreset, a small weighted subset of the data that provably approximates the original data set, to sparsify the parameters of a trained fully-connected neural network by sampling a number of neural network parameters based on the importance of the data. However, the sampling procedure is data-dependent and can only be only be performed after an expensive training phase. We propose the use of data-independent coresets to perform provable model compression without the need for training. We first prove that there exists a coreset whose size is independent of the input size of the data for any neuron whose activation function is from a family of functions that includes variants of ReLU, sigmoid and others. We then provide a compression-based algorithm that constructs these coresets and explicitly applies neuron pruning for the underlying model. We demonstrate the effectiveness of our methods with experimental evaluations for both synthetic and real-world benchmark network compression. In particular, our framework provides up to 90% compression on the LeNet-300-100 architecture on MNIST and actually improves the accuracy.
研究动机与目标
- 为解决现有模型压缩方法缺乏理论保证的问题,这些方法依赖于基于启发式的参数稀疏化。
- 通过引入数据无关的coreset实现参数剪枝,消除对昂贵训练阶段的依赖。
- 通过证明在包含ReLU和Sigmoid在内的广泛激活函数族中,神经元存在小而与大小无关的coreset,为模型压缩建立理论基础。
- 开发一种实用算法,用于构建这些coreset,并直接将神经元剪枝应用于压缩后的模型。
- 证明所提出的方法在基准数据集上可实现高比例压缩率,同时保持或提升模型准确率。
提出的方法
- 该方法证明了每个神经元的coreset存在性,其大小与输入数据规模无关,前提是激活函数属于特定家族(包括ReLU、Sigmoid及其变体)。
- 基于激活函数的功能特性,提出一种数据无关的coreset构造方法,避免依赖训练数据的统计特性。
- 利用coreset来近似输入特征对神经元输出的贡献,以最小误差识别并剪除不重要的神经元。
- 设计一种基于压缩的算法,迭代地为每一层构建并应用coreset,实现对整个神经元的结构化剪枝。
- 通过使用浓度不等式来界定基于coreset的参数稀疏化所引入的误差,确保理论上的近似保证。
实验结果
研究问题
- RQ1能否为全连接层构建一种数据无关的coreset,使得压缩后的模型在保持高准确率的同时具备可证明的保证?
- RQ2对于ReLU和Sigmoid家族的激活函数,coreset的大小是否依赖于输入数据规模?
- RQ3所提出的基于coreset的剪枝方法能否在无需完整训练阶段的情况下实现高比例压缩?
- RQ4压缩后模型的准确率与原始模型及基于启发式的压缩方法相比如何?
- RQ5基于coreset的剪枝能否提升泛化能力,使测试准确率优于原始模型?
主要发现
- 所提出的方法在MNIST数据集的LeNet-300-100架构上实现了高达90%的参数压缩,显著减小了模型规模。
- 压缩后的模型在测试准确率上优于原始网络,表明剪枝可增强泛化能力。
- coreset的构造是数据无关的,消除了对昂贵的训练依赖型采样程序的需求。
- 理论分析证明,对于指定家族中具有激活函数的神经元,coreset的大小与输入数据规模无关。
- 该方法提供了可证明的近似保证,弥合了基于启发式的压缩与理论基础坚实的模型压缩之间的差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。