[论文解读] Data-Driven Sparse Structure Selection for Deep Neural Networks
本文提出稀疏结构选择(SSS),一种数据驱动的端到端框架,通过引入神经元、神经元组或残差块的可学习缩放因子,并施加稀疏性正则化以促使这些因子趋近于零,从而实现自动且硬件友好的结构化剪枝。该方法采用改进的随机加速近端梯度(APG)优化算法,在CIFAR-10、CIFAR-100和ImageNet上实现了SOTA精度,同时显著降低FLOPs,且无需迭代微调。
Deep convolutional neural networks have liberated its extraordinary power on various tasks. However, it is still very challenging to deploy state-of-the-art models into real-world applications due to their high computational complexity. How can we design a compact and effective network without massive experiments and expert knowledge? In this paper, we propose a simple and effective framework to learn and prune deep models in an end-to-end manner. In our framework, a new type of parameter -- scaling factor is first introduced to scale the outputs of specific structures, such as neurons, groups or residual blocks. Then we add sparsity regularizations on these factors, and solve this optimization problem by a modified stochastic Accelerated Proximal Gradient (APG) method. By forcing some of the factors to zero, we can safely remove the corresponding structures, thus prune the unimportant parts of a CNN. Comparing with other structure selection methods that may need thousands of trials or iterative fine-tuning, our method is trained fully end-to-end in one training pass without bells and whistles. We evaluate our method, Sparse Structure Selection with several state-of-the-art CNNs, and demonstrate very promising results with adaptive depth and width selection.
研究动机与目标
- 为解决在自动驾驶等延迟敏感型真实应用场景中部署高复杂度深度神经网络的挑战。
- 消除模型压缩中对手动网络结构设计或迭代剪枝与微调的需求。
- 实现基于任务难度与硬件约束的自动、自适应网络深度与宽度选择。
- 实现可硬件加速的、结构化的稀疏性,以提升标准GPU上的推理速度。
- 开发统一的端到端训练与剪枝框架,联合优化网络权重与结构稀疏性。
提出的方法
- 引入可学习的缩放因子,用于调节特定网络结构(如神经元、神经元组、残差块)的输出,实现对结构重要性的可微控制。
- 通过在缩放因子上添加L1型稀疏性惩罚项,将网络训练与剪枝重新表述为联合稀疏正则化优化问题。
- 采用改进的随机加速近端梯度(APG)方法求解优化问题,确保稳定收敛并高效诱导稀疏性。
- 以缩放因子为零的结构作为永久移除的依据,从而生成剪枝后紧凑的模型。
- 在单次训练过程中端到端应用该框架,避免多阶段微调或启发式剪枝策略。
- 支持对神经元、残差块与通道组的自适应剪枝,实现动态深度与宽度调整。
实验结果
研究问题
- RQ1深度神经网络是否能在训练过程中自动学习其最优结构(深度与宽度),而无需人工设计的网络架构或迭代调优?
- RQ2是否可通过可微参数实现结构化稀疏性,从而支持端到端训练与硬件加速推理?
- RQ3通过APG联合优化网络权重与结构稀疏性,是否在精度与效率上优于启发式或迭代剪枝方法?
- RQ4所提方法是否能在小规模(CIFAR)与大规模(ImageNet)基准上均实现SOTA模型压缩效果?
- RQ5优化方法的选择(如APG vs. SGD vs. ISTA)如何影响收敛性与最终模型性能?
主要发现
- 我们的ResNet-32在ImageNet上达到25.82%的top-1错误率,优于[13]中剪枝后的ResNet-50(27.70%),且FLOPs减少14%。
- 我们的ResNet-41在ImageNet上达到24.56%的top-1错误率,较[48]中剪枝后的ResNet-101高出0.88%,且FLOP预算更低。
- 在CIFAR-100上,我们的剪枝模型错误率低于先前SOTA方法(包括ThiNet与通道剪枝),且FLOP效率更优。
- 与ISTA和SGD相比,本方法实现更稳定的收敛与更优性能,APG在稀疏性诱导方面表现出更快且更可靠的特性。
- 剪枝后的ResNeXt-38在top-5错误率上比DenseNet-121低0.2%,且FLOPs减少14%,展现出优异的效率-精度权衡。
- 该框架可基于任务复杂度与硬件约束自动、自适应地选择网络深度与宽度,无需人工设计或多次重训练周期。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。