Skip to main content
QUICK REVIEW

[论文解读] Speeding up Convolutional Neural Networks By Exploiting the Sparsity of Rectifier Units

Shaohuai Shi, Xiaowen Chu|arXiv (Cornell University)|Apr 25, 2017
Tensor decomposition and applications参考文献 17被引用 33
一句话总结

本文提出了一种逆稀疏卷积(ISC)算法,通过利用ReLU激活输出的高稀疏性,加速CPU上的深度卷积神经网络推理。通过使用优化的内存访问模式和SIMD指令,在卷积过程中跳过零值神经元的计算,该方法在输入稀疏性≥0.95的LeNet和GoogLeNet层上实现了最高7.11倍的加速。

ABSTRACT

Rectifier neuron units (ReLUs) have been widely used in deep convolutional networks. An ReLU converts negative values to zeros, and does not change positive values, which leads to a high sparsity of neurons. In this work, we first examine the sparsity of the outputs of ReLUs in some popular deep convolutional architectures. And then we use the sparsity property of ReLUs to accelerate the calculation of convolution by skipping calculations of zero-valued neurons. The proposed sparse convolution algorithm achieves some speedup improvements on CPUs compared to the traditional matrix-matrix multiplication algorithm for convolution when the sparsity is not less than 0.9.

研究动机与目标

  • 研究在训练和推理过程中,主流深度卷积神经网络中ReLU激活输出的稀疏性水平。
  • 开发一种针对CPU优化的卷积算法,动态跳过零值神经元的计算,且无需修改网络架构。
  • 通过利用ReLU单元固有的稀疏性,提升卷积层的计算效率。
  • 证明稀疏感知计算可在无需专用硬件的情况下,显著提升通用CPU上的性能。

提出的方法

  • 所提出的逆稀疏卷积(ISC)算法首先识别并跳过零值输入元素,仅存储非零值及其空间坐标。
  • 将卷积核权重按列主序重新组织,以支持高效的SIMD向量化(如AVX/SSE),实现与非零输入的同时乘法运算。
  • 针对每个非零输入激活,算法计算其与对应卷积核权重的部分点积,并累积到临时缓冲区中。
  • 随后将临时输出结果转置,生成最终的输出特征图,从而最小化内存访问开销。
  • 该算法设计为可直接运行在标准CPU上,无需硬件修改或框架级微调。
  • 稀疏性在推理过程中实时利用,避免对零值神经元进行冗余乘法和内存写入操作。

实验结果

研究问题

  • RQ1在LeNet、AlexNet和GoogLeNet等主流深度卷积神经网络中,ReLU输出的实际稀疏性水平是多少?
  • RQ2是否可以有效利用ReLU输出的稀疏性来加速通用CPU上的卷积运算?
  • RQ3与基于GEMM的标准卷积相比,稀疏感知卷积算法在CPU上的性能表现如何?
  • RQ4当稀疏性超过90%时,最大可实现的加速比是多少?哪些网络层受益最多?
  • RQ5所提出的方法是否能在不修改网络架构且无需专用硬件的情况下实现显著加速?

主要发现

  • 在GoogLeNet的Inception5b.5层(输入稀疏性为95%)上,ISC算法实现了最高7.11倍的加速。
  • 在LeNet-Conv2层(稀疏性为95%)上,ISC方法将计算时间从0.854 ms(GEMM)降低至0.123 ms,实现6.96倍加速。
  • 在ImageNet上的AlexNet(Conv4,稀疏性为90%)中,ISC方法将时间从4.874 ms减少至1.660 ms,实现2.94倍加速。
  • 在GoogLeNet层中,当稀疏性为90%时,加速比在1.39×至2.87×之间,表明随着稀疏性降低,加速收益呈递减趋势。
  • 该方法在高稀疏性层上表现出显著性能提升,尤其在深层、宽层如Inception5b.5和Inception5a.1中观察到最高加速比。
  • 结果证实,ReLU引起的稀疏性是通用CPU上加速DNN推理的可行且尚未被充分利用的优化目标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。