[论文解读] DropNeuron: Simplifying the Structure of Deep Neural Networks
该论文提出了一种名为DropNeuron的新正则化方法,通过在训练过程中永久性地移除整个神经元来简化深度神经网络,利用专门针对输入和输出连接的正则化器实现。该方法在显著减小模型尺寸的同时,实现了与完整网络相当的性能,LeNet-5全连接层的压缩率最高达67%,在不损失准确率的前提下,优于基线方法的神经元减少效果。
Deep learning using multi-layer neural networks (NNs) architecture manifests superb power in modern machine learning systems. The trained Deep Neural Networks (DNNs) are typically large. The question we would like to address is whether it is possible to simplify the NN during training process to achieve a reasonable performance within an acceptable computational time. We presented a novel approach of optimising a deep neural network through regularisation of net- work architecture. We proposed regularisers which support a simple mechanism of dropping neurons during a network training process. The method supports the construction of a simpler deep neural networks with compatible performance with its simplified version. As a proof of concept, we evaluate the proposed method with examples including sparse linear regression, deep autoencoder and convolutional neural network. The valuations demonstrate excellent performance. The code for this work can be found in http://www.github.com/panweihit/DropNeuron
研究动机与目标
- 为解决大型、过参数化的深度神经网络(DNNs)在计算和存储方面的低效问题。
- 探究在训练过程中永久性地移除神经元是否能够生成结构更简单、参数更少但性能相当的网络。
- 开发一种正则化机制,通过消除整个神经元而非仅连接,实现结构化稀疏性。
- 在包括稀疏回归、自编码器和卷积网络在内的多种任务上评估该方法。
- 证明神经元移除可实现高于传统剪枝或基于Dropout方法的压缩率。
提出的方法
- 提出两种基于Group Lasso的新正则化器,同时惩罚某个神经元的所有输入或输出权重,促使这些权重收敛至零。
- 对权重矩阵的整行(输入)和整列(输出)应用ℓ2-范数正则化,以诱导神经元级别的稀疏性。
- 在端到端训练过程中应用这些正则化器,当所有相关权重被置零时,允许神经元被永久移除。
- 依赖凸松弛方法,使难以求解的最小网络结构问题变得可处理。
- 将正则化器无缝集成到标准训练流程中,无需修改网络架构或推理过程。
- 在训练后采用阈值化机制识别并移除不活跃的神经元,从而得到一个压缩且简化的网络。
实验结果
研究问题
- RQ1我们能否训练一个深度神经网络,使其在训练过程中通过永久性移除整个神经元,自动简化其网络结构?
- RQ2通过结构化正则化实现的神经元移除,是否能带来高于传统剪枝或基于Dropout方法的压缩率?
- RQ3一个神经元更少的简化网络,是否能在监督和无监督任务上保持与完整网络相当的性能?
- RQ4与ℓ1正则化和Dropout等现有方法相比,所提出的正则化方法在稀疏性和准确率方面表现如何?
- RQ5神经元移除在不同网络架构(如卷积层和全连接层)中的适用程度如何?
主要发现
- 在LeNet-5的全连接层上,DropNeuron实现了67.04%的压缩率,显著优于基线方法如DO+P(1.81)和ℓ1+DO+P(17.95)。
- 与ℓ1+DO+P相比,FC1和FC2中活跃神经元的总数分别减少至28.92%和21.48%,而后者分别为33.13%和62.5%。
- 在MNIST分类任务中,DropNeuron在压缩模型上实现了99.07%的测试准确率,与完整模型及其他正则化基线方法相当或略优。
- 在自编码器实验中,DropNeuron在NMSE上优于使用ℓ1正则化的Dropout方法,同时移除了更多的神经元。
- 该方法在多种任务中表现一致,包括稀疏线性回归、自编码和卷积神经网络,展现出良好的鲁棒性和泛化能力。
- 尽管未对卷积滤波器中的神经元进行剪枝,该方法在全连接层仍实现了超过60%的压缩率,凸显其在参数密集型组件中的高效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。