Skip to main content
QUICK REVIEW

[论文解读] Sparse weight activation training

Aamir Raihan|arXiv (Cornell University)|Jan 1, 2021
Advanced Neural Network Applications被引用 3
一句话总结

本文提出了一种新型卷积神经网络训练算法——稀疏权重激活训练(SWAT),通过在前向传播和反向传播过程中动态剪枝小梯度权重与激活值,实现稀疏网络拓扑的动态学习。SWAT将训练计算量减少50%–90%,内存使用量减少高达90%,在CIFAR-10、CIFAR-100和ImageNet上实现了与当前最先进剪枝方法相当或更优的准确率。

ABSTRACT

Neural network training is computationally and memory intensive. Sparse training can reduce the burden, but it can affect network convergence. In this work, we propose a novel CNN training algorithm Sparse Weight Activation Training (SWAT). SWAT is : (1) more computation and memory-efficient than conventional training, (2) learns a sparse network topology directly, and (3) can be adapted to learn a structured or unstructured sparse topology. SWAT is developed based on insights derived from an empirical sensitivity analysis of network training on six different network architectures and three different datasets. Empirically, we find network convergence is robust to the elimination of small magnitude weights during the forward pass and small magnitude weights and activations during the backward pass. SWAT obtains efficiency by constraining the forward and backward pass during training. SWAT dynamically searches for a sparse topology. The dynamic search of the weights allows SWAT to train a wide variety of architectures such as ResNet, VGG, DenseNet and WideResNet up to 90% sparsity. SWAT demonstrates similar or better performance on CIFAR-10, CIFAR-100, and ImageNet dataset compared to other pruning and sparse learning algorithms. Moreover, SWAT reduces total computations during training by 50% to 90%, reduces memory footprint during the backward pass by 23% to 50% for activations and 50% to 90% for weights.

研究动机与目标

  • 解决深度神经网络训练过程中计算与内存成本过高的问题。
  • 克服稀疏训练方法常伴随的收敛不稳定性问题。
  • 开发一种可在训练过程中动态学习结构化与非结构化稀疏拓扑的训练算法。
  • 在标准基准测试上实现显著的效率提升,同时不牺牲模型准确率。
  • 实现对ResNet、VGG、DenseNet和WideResNet等多种架构在高达90%稀疏度下的高效训练。

提出的方法

  • 提出一种动态稀疏化策略,在前向传播中移除小梯度权重,并在反向传播中同时移除小梯度权重与激活值。
  • 通过在六种架构和三个数据集上进行敏感性分析,实证发现即使移除小权重与激活值,网络收敛依然稳健。
  • 引入一种训练机制,仅对显著权重与激活值进行更新和存储,从而约束前向与反向传播过程。
  • 通过在训练过程中动态搜索最优稀疏拓扑,同时支持结构化与非结构化稀疏性。
  • 利用实证敏感性分析的洞察指导剪枝过程,无需迭代微调或重新训练。
  • 支持稀疏网络的端到端训练,无需迭代剪枝或微调阶段。

实验结果

研究问题

  • RQ1在训练过程中移除小梯度权重与激活值后,深度神经网络是否仍能保持收敛与准确率?
  • RQ2在不降低模型性能的前提下,卷积神经网络训练中的计算与内存使用量最多可减少多少?
  • RQ3是否可设计一种单一训练算法,在多种架构上动态学习结构化与非结构化稀疏拓扑?
  • RQ4与现有剪枝与稀疏学习技术相比,该方法在效率与准确率方面表现如何?
  • RQ5在CIFAR-10、CIFAR-100和ImageNet等标准基准上,实现稳定收敛的最大稀疏度是多少?

主要发现

  • SWAT在多种架构与数据集上将总训练计算量减少了50%至90%。
  • 反向传播期间,激活值的内存使用量减少了23%至50%,权重的内存使用量减少了50%至90%。
  • SWAT在CIFAR-10、CIFAR-100和ImageNet上实现了与现有剪枝与稀疏学习算法相当或更优的准确率。
  • SWAT可在高达90%稀疏度下对ResNet、VGG、DenseNet和WideResNet架构进行训练,且性能下降不显著。
  • 即使在前向与反向传播中剪枝小梯度权重与激活值,网络收敛依然稳健。
  • 动态稀疏性搜索机制使SWAT能够自适应学习最优稀疏拓扑,而无需预定义稀疏模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。